AWS 프리티어 구축 (for Data Engineering)
1.AWS 가입 후 둘러보기
Continue reading
Auto-regressive & Teacher Forcing
오토리그레시브한 테스크, 그리고 티처포싱 이라는 방식에 대해 알아봅니다.
Continue reading
n-gram 정리
n-gram 알고리즘에 대해 다시 정리합니다!
Continue reading
Interpolation & Back-off
- 수치 보간법이라고 한글로 불리움.. 수학과 수업에서 들어본 듯.
- 다른 LM을 linear하게 일정 비율로 섞는 것
- general domain LM + domain specific LM = general domain에서 잘 동작하는 domatin adapted LM
- 예시: 의료/법률/특허 관련 AST/MT system등이 있다.
- 추가 질문
- 그냥 domain specific corpus로 LM을 만들면 안되는지?
- 그렇게 되면 unseen word seq가 너무 많을 것 같다..
- 그냥 전체 corpus를 합쳐서 LM을 만들면 안되나요?
- Domain specific corpus의 양이 너무 적어서 반영이 안될 수도?
- Interpolation에서 ratio(lambda)를 조절하여 중요(weight)를 조절
- 명시적으로 (explicit) 섞을 수 있다.
- General domain test set, Domain specific test set 모두에서 좋은 성능을 찾는 hyper-parameter Lambda를 찾아야 한다.
- Back-off (뒤로 가면서 n을 줄여가는 것)
- 희소성에 대처하는 방법
- Markov assumption처럼 n을 점점 줄여가면 ?
- 조건부 확률에서 조건부 word seq를 줄여가면, unknown word가 없다면 언젠가는 확률을 구할 수 있다!
Continue reading
Intro to Language Modeling(LM)
- 언어모델, LM은 “문장의 확률”을 나타낸 모델
- 구체적으로는 ‘문장 자체의 출현 확률’을 예측하는 모델
- 또는 이전 단어들이 주어졌을 때 ‘다음 단어’를 예측하기 위한 모델
- 우리 머릿속에는 단어와 단어 사이의 확률이 우리도 모르게 학습되어 있다.
- 많은 문장들을 수집하여, 단어와 단어 사이의 출현 빈도를 세어 확률을 계산!
- 궁극적인 목표는 우리가 일상 생활에서 사용하는 언어의 문장 분포를 정확하게 모델링 하는 것/ 또는 잘 근사(Approximation) 하는 것
- 특정 도메인의 문장의 분포를 파악하기 위해서 해당 분야의 말뭉치 Corpus를 수집하기도 한다. (어른과 어린이의 LM이 다르고,, 의사와 일반인이 다르고.. 등등)
- 한국어 NLP는 왜 어렵나? 바로 교착어이기 때매.. 어순이 안중요. 접사에 따라 역할이 정해지기 떄문.. 단어와 단어 사이의 확률을 계산하는데 불리하게 작용하는.. 그리고 생략도 가능하기 때매 종종..
- 따라서, 확률이 퍼지는 현상이 한국말엔 존재하게 됨
- 접사를 따로 분리해주지 않으면 어휘의 수가 기하급수적으로 늘어나 희소성이 더욱 늘어난다.
- 언어모델 LM의 적용분야 (NLG Task에대해 매우 중요한 역할을 하더라..)
- 1)Speech Recognition: Acoustic Model과 결합하여, 인식된 Phone의 sequence에 대해서 좀 더 높은 확률을 갖는 sequence로 보완
- 2)번역 모델과 결합하여, 번역 된 결과 문장을 자유스럽게 만듦
- 3)OCR : 인식된 character candidate sequence에 대해서 좀 더 높은 확률을 갖는 sequence를 선택하도록 도움
- 4)Other NLG Tasks: 뉴스기사 생성, 챗봇, 검색어 자동완성 등등.
- ASR(Automatic Speech Recognition)
- x=음성, y=word sequence
argmaxP(x | y)P(y) === AM과 LM의 확률의 곱임. |
Continue reading