글또 6기를 시작하며

글또 6기를 시작하며

난생 처음으로 글쓰는 또라이라는 모임에 가입해서.. 글을 꾸준히 강제적으로 쓸 수 있게 되어 행운이다. 특별히 전체를 운영해주시고 이끄시는 변성윤님께 감사의 말을 먼저 전달 드리고 싶다.

Continue reading

Pytorch for DL

Overview

  • What is ML?? & What is Human Intelligence??
    • input: Information
    • Output: Inference
    • ML needs lots of training data
  • Rule based vs. Representation learning ?
  • Pytorch
    • A python package that provides two high-level features:
      • Tensor computation (like numpy) with strong GPU acceleration
      • Deep Neural Networks built on a tape-based autograd system
    • More Pythonic (Imperative)
      • Flex, Intuitive, cleaner code, easy to debug
    • More Neural Networkic
      • Write code as the network works
      • forward/backward

Continue reading

System Trading과 판다스 - 1

System Trading

시스템 트레이딩의 정의

  • 다양한 금융데이터를 직접 가공 분석하여 추출한 지표를 이용하여
  • 이를 통한 투자 아이디어나 매매 로직을 계량화, 코드화 하여
  • 과거데이터에 ‘백테스팅’ 해보고 이를 실전까지 바로 투입할 수 있는 프로세스를 하나로 시스템화
  • 인간의 개입을 최소화 하는 투자 방법

Continue reading

파이썬 패키지 활용 - FinanceDataReader에 대하여

FinanceDataReader Package

FinanceDataReader 라는 엄청난 패키지가 어떤분이 개발하셨는지는 몰라도 재무데이터 모으는 나같은 사람에겐 실무에 큰 도움이 되었다. 진심 감사드린다. 이 패키지를 설치하고 임포트해서 간단한 주가 시계열 분석을 진행해보고자 한다. 나도 제대로 써보는 건 처음이라.. 그래도 누군가 이 포스트를 보고 도움이 되기를 간절히 바란다. 내가 하고픈 건, 원하는 주식 또는 상장ETF의 종가 Movement를 아래 그래프처럼 시각화 해보고자 한다.

Continue reading

자연어처리 - 언어모델링(LM)

Intro to Machine Translation

  • 과거 1950년대부터 시작되었음. Electronic Brain, Russian to English 에 대한 시도들이 있었다.
  • Rule Based MT (RBMT) - 룰 기반이라 확장이 어렵다.
  • Statistical MT (SMT) - 처음에 구글때문에 알려지게 됨. 구글번역기의 시초. 구조가 복잡하게 형성되어 있는게 단점이었음. 통계기반이기 때문에 코퍼스만 있다면 그대로 적용 가능했었다.
    • image-20201114224914778
  • 2014년에 Neural Machine Translation 관련 연구가 폭발하듯 증가 및 성공. 시퀀스 투 시퀀스의 등판!
  • 현재 상용화 되어 있는 시스템은 대부분 NMT 이다.
    • image-20201114225558389

Continue reading

자연어처리 - Interpolation + PPL

Interpolation & Back-off

  • 수치 보간법이라고 한글로 불리움.. 수학과 수업에서 들어본 듯.
  • 다른 LM을 linear하게 일정 비율로 섞는 것
  • general domain LM + domain specific LM = general domain에서 잘 동작하는 domatin adapted LM
  • 예시: 의료/법률/특허 관련 AST/MT system등이 있다.
  • 추가 질문
    • 그냥 domain specific corpus로 LM을 만들면 안되는지?
      • 그렇게 되면 unseen word seq가 너무 많을 것 같다..
    • 그냥 전체 corpus를 합쳐서 LM을 만들면 안되나요?
      • Domain specific corpus의 양이 너무 적어서 반영이 안될 수도?
    • Interpolation에서 ratio(lambda)를 조절하여 중요(weight)를 조절
      • 명시적으로 (explicit) 섞을 수 있다.
      • General domain test set, Domain specific test set 모두에서 좋은 성능을 찾는 hyper-parameter Lambda를 찾아야 한다.
  • Back-off (뒤로 가면서 n을 줄여가는 것)
    • 희소성에 대처하는 방법
    • Markov assumption처럼 n을 점점 줄여가면 ?
      • 조건부 확률에서 조건부 word seq를 줄여가면, unknown word가 없다면 언젠가는 확률을 구할 수 있다!

Continue reading

자연어처리 - 인트로덕션 (LM)

Intro to Language Modeling(LM)

  • 언어모델, LM은 “문장의 확률”을 나타낸 모델
    • 구체적으로는 ‘문장 자체의 출현 확률’을 예측하는 모델
    • 또는 이전 단어들이 주어졌을 때 ‘다음 단어’를 예측하기 위한 모델
  • 우리 머릿속에는 단어와 단어 사이의 확률이 우리도 모르게 학습되어 있다.
  • 많은 문장들을 수집하여, 단어와 단어 사이의 출현 빈도를 세어 확률을 계산!
  • 궁극적인 목표는 우리가 일상 생활에서 사용하는 언어의 문장 분포를 정확하게 모델링 하는 것/ 또는 잘 근사(Approximation) 하는 것
    • 특정 도메인의 문장의 분포를 파악하기 위해서 해당 분야의 말뭉치 Corpus를 수집하기도 한다. (어른과 어린이의 LM이 다르고,, 의사와 일반인이 다르고.. 등등)
  • 한국어 NLP는 왜 어렵나? 바로 교착어이기 때매.. 어순이 안중요. 접사에 따라 역할이 정해지기 떄문.. 단어와 단어 사이의 확률을 계산하는데 불리하게 작용하는.. 그리고 생략도 가능하기 때매 종종..
  • 따라서, 확률이 퍼지는 현상이 한국말엔 존재하게 됨
  • 접사를 따로 분리해주지 않으면 어휘의 수가 기하급수적으로 늘어나 희소성이 더욱 늘어난다.
  • 언어모델 LM의 적용분야 (NLG Task에대해 매우 중요한 역할을 하더라..)
    • 1)Speech Recognition: Acoustic Model과 결합하여, 인식된 Phone의 sequence에 대해서 좀 더 높은 확률을 갖는 sequence로 보완
    • 2)번역 모델과 결합하여, 번역 된 결과 문장을 자유스럽게 만듦
    • 3)OCR : 인식된 character candidate sequence에 대해서 좀 더 높은 확률을 갖는 sequence를 선택하도록 도움
    • 4)Other NLG Tasks: 뉴스기사 생성, 챗봇, 검색어 자동완성 등등.
  • ASR(Automatic Speech Recognition)
    • x=음성, y=word sequence
    • argmaxP(xy)P(y) === AM과 LM의 확률의 곱임.

Continue reading

Pagination


© 2020 modified by Tae You Kim

Powered by "shoman2"