자연어처리 - Interpolation + PPL

Interpolation & Back-off

  • 수치 보간법이라고 한글로 불리움.. 수학과 수업에서 들어본 듯.
  • 다른 LM을 linear하게 일정 비율로 섞는 것
  • general domain LM + domain specific LM = general domain에서 잘 동작하는 domatin adapted LM
  • 예시: 의료/법률/특허 관련 AST/MT system등이 있다.
  • 추가 질문
    • 그냥 domain specific corpus로 LM을 만들면 안되는지?
      • 그렇게 되면 unseen word seq가 너무 많을 것 같다..
    • 그냥 전체 corpus를 합쳐서 LM을 만들면 안되나요?
      • Domain specific corpus의 양이 너무 적어서 반영이 안될 수도?
    • Interpolation에서 ratio(lambda)를 조절하여 중요(weight)를 조절
      • 명시적으로 (explicit) 섞을 수 있다.
      • General domain test set, Domain specific test set 모두에서 좋은 성능을 찾는 hyper-parameter Lambda를 찾아야 한다.
  • Back-off (뒤로 가면서 n을 줄여가는 것)
    • 희소성에 대처하는 방법
    • Markov assumption처럼 n을 점점 줄여가면 ?
      • 조건부 확률에서 조건부 word seq를 줄여가면, unknown word가 없다면 언젠가는 확률을 구할 수 있다!

Continue reading

자연어처리 - 인트로덕션 (LM)

Intro to Language Modeling(LM)

  • 언어모델, LM은 “문장의 확률”을 나타낸 모델
    • 구체적으로는 ‘문장 자체의 출현 확률’을 예측하는 모델
    • 또는 이전 단어들이 주어졌을 때 ‘다음 단어’를 예측하기 위한 모델
  • 우리 머릿속에는 단어와 단어 사이의 확률이 우리도 모르게 학습되어 있다.
  • 많은 문장들을 수집하여, 단어와 단어 사이의 출현 빈도를 세어 확률을 계산!
  • 궁극적인 목표는 우리가 일상 생활에서 사용하는 언어의 문장 분포를 정확하게 모델링 하는 것/ 또는 잘 근사(Approximation) 하는 것
    • 특정 도메인의 문장의 분포를 파악하기 위해서 해당 분야의 말뭉치 Corpus를 수집하기도 한다. (어른과 어린이의 LM이 다르고,, 의사와 일반인이 다르고.. 등등)
  • 한국어 NLP는 왜 어렵나? 바로 교착어이기 때매.. 어순이 안중요. 접사에 따라 역할이 정해지기 떄문.. 단어와 단어 사이의 확률을 계산하는데 불리하게 작용하는.. 그리고 생략도 가능하기 때매 종종..
  • 따라서, 확률이 퍼지는 현상이 한국말엔 존재하게 됨
  • 접사를 따로 분리해주지 않으면 어휘의 수가 기하급수적으로 늘어나 희소성이 더욱 늘어난다.
  • 언어모델 LM의 적용분야 (NLG Task에대해 매우 중요한 역할을 하더라..)
    • 1)Speech Recognition: Acoustic Model과 결합하여, 인식된 Phone의 sequence에 대해서 좀 더 높은 확률을 갖는 sequence로 보완
    • 2)번역 모델과 결합하여, 번역 된 결과 문장을 자유스럽게 만듦
    • 3)OCR : 인식된 character candidate sequence에 대해서 좀 더 높은 확률을 갖는 sequence를 선택하도록 도움
    • 4)Other NLG Tasks: 뉴스기사 생성, 챗봇, 검색어 자동완성 등등.
  • ASR(Automatic Speech Recognition)
    • x=음성, y=word sequence
    • argmaxP(xy)P(y) === AM과 LM의 확률의 곱임.

Continue reading

Pagination


© 2020 modified by Tae You Kim

Powered by "shoman2"