Data Engineering - AWS 프리티어 사용해보기

13 Nov 2020 in Data Science on Engineering

AWS 프리티어 구축 (for Data Engineering)

1.AWS 가입 후 둘러보기

자연어처리 - Auto-regressive & Teacher Forcing

13 Nov 2020 in Data Science on ML/DL

Auto-regressive & Teacher Forcing

오토리그레시브한 테스크, 그리고 티처포싱 이라는 방식에 대해 알아봅니다.

자연어처리 - N-GRAM 정리

13 Nov 2020 in Data Science on ML/DL

n-gram 정리

n-gram 알고리즘에 대해 다시 정리합니다!

자연어처리 - Interpolation + PPL

13 Nov 2020 in Data Science on ML/DL

Interpolation & Back-off

수치 보간법이라고 한글로 불리움.. 수학과 수업에서 들어본 듯.
다른 LM을 linear하게 일정 비율로 섞는 것
general domain LM + domain specific LM = general domain에서 잘 동작하는 domatin adapted LM
예시: 의료/법률/특허 관련 AST/MT system등이 있다.
추가 질문
- 그냥 domain specific corpus로 LM을 만들면 안되는지?
  - 그렇게 되면 unseen word seq가 너무 많을 것 같다..
- 그냥 전체 corpus를 합쳐서 LM을 만들면 안되나요?
  - Domain specific corpus의 양이 너무 적어서 반영이 안될 수도?
- Interpolation에서 ratio(lambda)를 조절하여 중요(weight)를 조절
  - 명시적으로 (explicit) 섞을 수 있다.
  - General domain test set, Domain specific test set 모두에서 좋은 성능을 찾는 hyper-parameter Lambda를 찾아야 한다.
Back-off (뒤로 가면서 n을 줄여가는 것)
- 희소성에 대처하는 방법
- Markov assumption처럼 n을 점점 줄여가면 ?
  - 조건부 확률에서 조건부 word seq를 줄여가면, unknown word가 없다면 언젠가는 확률을 구할 수 있다!

자연어처리 - 인트로덕션 (LM)

12 Nov 2020 in Data Science on ML/DL

Intro to Language Modeling(LM)

언어모델, LM은 “문장의 확률”을 나타낸 모델
- 구체적으로는 ‘문장 자체의 출현 확률’을 예측하는 모델
- 또는 이전 단어들이 주어졌을 때 ‘다음 단어’를 예측하기 위한 모델
우리 머릿속에는 단어와 단어 사이의 확률이 우리도 모르게 학습되어 있다.
많은 문장들을 수집하여, 단어와 단어 사이의 출현 빈도를 세어 확률을 계산!
궁극적인 목표는 우리가 일상 생활에서 사용하는 언어의 문장 분포를 정확하게 모델링 하는 것/ 또는 잘 근사(Approximation) 하는 것
- 특정 도메인의 문장의 분포를 파악하기 위해서 해당 분야의 말뭉치 Corpus를 수집하기도 한다. (어른과 어린이의 LM이 다르고,, 의사와 일반인이 다르고.. 등등)
한국어 NLP는 왜 어렵나? 바로 교착어이기 때매.. 어순이 안중요. 접사에 따라 역할이 정해지기 떄문.. 단어와 단어 사이의 확률을 계산하는데 불리하게 작용하는.. 그리고 생략도 가능하기 때매 종종..
따라서, 확률이 퍼지는 현상이 한국말엔 존재하게 됨
접사를 따로 분리해주지 않으면 어휘의 수가 기하급수적으로 늘어나 희소성이 더욱 늘어난다.
언어모델 LM의 적용분야 (NLG Task에대해 매우 중요한 역할을 하더라..)
- 1)Speech Recognition: Acoustic Model과 결합하여, 인식된 Phone의 sequence에 대해서 좀 더 높은 확률을 갖는 sequence로 보완
- 2)번역 모델과 결합하여, 번역 된 결과 문장을 자유스럽게 만듦
- 3)OCR : 인식된 character candidate sequence에 대해서 좀 더 높은 확률을 갖는 sequence를 선택하도록 도움
- 4)Other NLG Tasks: 뉴스기사 생성, 챗봇, 검색어 자동완성 등등.
ASR(Automatic Speech Recognition)
- x=음성, y=word sequence
- argmaxP(x y)P(y) === AM과 LM의 확률의 곱임.

AWS 프리티어 구축 (for Data Engineering)

1.AWS 가입 후 둘러보기

Auto-regressive & Teacher Forcing

n-gram 정리

Interpolation & Back-off

Intro to Language Modeling(LM)

Pagination