Knowledge Graph (KG)에 대하여

What is ML?? & What is Human Intelligence??
- input: Information
- Output: Inference
- ML needs lots of training data
Rule based vs. Representation learning ?
Pytorch
- A python package that provides two high-level features:
  - Tensor computation (like numpy) with strong GPU acceleration
  - Deep Neural Networks built on a tape-based autograd system
- More Pythonic (Imperative)
  - Flex, Intuitive, cleaner code, easy to debug
- More Neural Networkic
  - Write code as the network works
  - forward/backward

Time Series 데이터 분석 - 1

15 Dec 2020 in Data Science on ML/DL

Time Series

시계열, 타임시리즈 데이터에 분석에 대해 알아보자.

Regression 회귀분석에 대하여

15 Dec 2020 in Data Science on ML/DL

Regression

System Trading과 판다스 - 1

14 Dec 2020 in Data Science on ML/DL

System Trading

시스템 트레이딩의 정의

다양한 금융데이터를 직접 가공 분석하여 추출한 지표를 이용하여
이를 통한 투자 아이디어나 매매 로직을 계량화, 코드화 하여
과거데이터에 ‘백테스팅’ 해보고 이를 실전까지 바로 투입할 수 있는 프로세스를 하나로 시스템화
인간의 개입을 최소화 하는 투자 방법

Graph Neural Net

11 Dec 2020 in Data Science on ML/DL

Graph Neural Net

Grpah라는 자료구조

자연어처리 - 언어모델링(LM)

06 Dec 2020 in Data Science on ML/DL

NLP - Language Modeling (LM)

언어 모델에 대해 알아봅니다.

Keras - CNN Model Code Test

05 Dec 2020 in Data Science on ML/DL

```python import keras keras.version

파이썬 패키지 활용 - FinanceDataReader에 대하여

05 Dec 2020 in Data Science on ML/DL

FinanceDataReader Package

FinanceDataReader 라는 엄청난 패키지가 어떤분이 개발하셨는지는 몰라도 재무데이터 모으는 나같은 사람에겐 실무에 큰 도움이 되었다. 진심 감사드린다. 이 패키지를 설치하고 임포트해서 간단한 주가 시계열 분석을 진행해보고자 한다. 나도 제대로 써보는 건 처음이라.. 그래도 누군가 이 포스트를 보고 도움이 되기를 간절히 바란다. 내가 하고픈 건, 원하는 주식 또는 상장ETF의 종가 Movement를 아래 그래프처럼 시각화 해보고자 한다.

자연어처리 - 언어모델링(LM)

13 Nov 2020 in Data Science on ML/DL

Intro to Machine Translation

과거 1950년대부터 시작되었음. Electronic Brain, Russian to English 에 대한 시도들이 있었다.
Rule Based MT (RBMT) - 룰 기반이라 확장이 어렵다.
Statistical MT (SMT) - 처음에 구글때문에 알려지게 됨. 구글번역기의 시초. 구조가 복잡하게 형성되어 있는게 단점이었음. 통계기반이기 때문에 코퍼스만 있다면 그대로 적용 가능했었다.
2014년에 Neural Machine Translation 관련 연구가 폭발하듯 증가 및 성공. 시퀀스 투 시퀀스의 등판!
현재 상용화 되어 있는 시스템은 대부분 NMT 이다.

자연어처리 - Auto-regressive & Teacher Forcing

13 Nov 2020 in Data Science on ML/DL

Auto-regressive & Teacher Forcing

오토리그레시브한 테스크, 그리고 티처포싱 이라는 방식에 대해 알아봅니다.

자연어처리 - N-GRAM 정리

13 Nov 2020 in Data Science on ML/DL

n-gram 정리

n-gram 알고리즘에 대해 다시 정리합니다!

자연어처리 - Interpolation + PPL

13 Nov 2020 in Data Science on ML/DL

Interpolation & Back-off

수치 보간법이라고 한글로 불리움.. 수학과 수업에서 들어본 듯.
다른 LM을 linear하게 일정 비율로 섞는 것
general domain LM + domain specific LM = general domain에서 잘 동작하는 domatin adapted LM
예시: 의료/법률/특허 관련 AST/MT system등이 있다.
추가 질문
- 그냥 domain specific corpus로 LM을 만들면 안되는지?
  - 그렇게 되면 unseen word seq가 너무 많을 것 같다..
- 그냥 전체 corpus를 합쳐서 LM을 만들면 안되나요?
  - Domain specific corpus의 양이 너무 적어서 반영이 안될 수도?
- Interpolation에서 ratio(lambda)를 조절하여 중요(weight)를 조절
  - 명시적으로 (explicit) 섞을 수 있다.
  - General domain test set, Domain specific test set 모두에서 좋은 성능을 찾는 hyper-parameter Lambda를 찾아야 한다.
Back-off (뒤로 가면서 n을 줄여가는 것)
- 희소성에 대처하는 방법
- Markov assumption처럼 n을 점점 줄여가면 ?
  - 조건부 확률에서 조건부 word seq를 줄여가면, unknown word가 없다면 언젠가는 확률을 구할 수 있다!

자연어처리 - 인트로덕션 (LM)

12 Nov 2020 in Data Science on ML/DL

Intro to Language Modeling(LM)

언어모델, LM은 “문장의 확률”을 나타낸 모델
- 구체적으로는 ‘문장 자체의 출현 확률’을 예측하는 모델
- 또는 이전 단어들이 주어졌을 때 ‘다음 단어’를 예측하기 위한 모델
우리 머릿속에는 단어와 단어 사이의 확률이 우리도 모르게 학습되어 있다.
많은 문장들을 수집하여, 단어와 단어 사이의 출현 빈도를 세어 확률을 계산!
궁극적인 목표는 우리가 일상 생활에서 사용하는 언어의 문장 분포를 정확하게 모델링 하는 것/ 또는 잘 근사(Approximation) 하는 것
- 특정 도메인의 문장의 분포를 파악하기 위해서 해당 분야의 말뭉치 Corpus를 수집하기도 한다. (어른과 어린이의 LM이 다르고,, 의사와 일반인이 다르고.. 등등)
한국어 NLP는 왜 어렵나? 바로 교착어이기 때매.. 어순이 안중요. 접사에 따라 역할이 정해지기 떄문.. 단어와 단어 사이의 확률을 계산하는데 불리하게 작용하는.. 그리고 생략도 가능하기 때매 종종..
따라서, 확률이 퍼지는 현상이 한국말엔 존재하게 됨
접사를 따로 분리해주지 않으면 어휘의 수가 기하급수적으로 늘어나 희소성이 더욱 늘어난다.
언어모델 LM의 적용분야 (NLG Task에대해 매우 중요한 역할을 하더라..)
- 1)Speech Recognition: Acoustic Model과 결합하여, 인식된 Phone의 sequence에 대해서 좀 더 높은 확률을 갖는 sequence로 보완
- 2)번역 모델과 결합하여, 번역 된 결과 문장을 자유스럽게 만듦
- 3)OCR : 인식된 character candidate sequence에 대해서 좀 더 높은 확률을 갖는 sequence를 선택하도록 도움
- 4)Other NLG Tasks: 뉴스기사 생성, 챗봇, 검색어 자동완성 등등.
ASR(Automatic Speech Recognition)
- x=음성, y=word sequence
- argmaxP(x y)P(y) === AM과 LM의 확률의 곱임.

자연어처리 - NLG 관련 기존 내용 리뷰

11 Nov 2020 in Data Science on ML/DL

Review: Statistical & Geometric Perspective for Deep Learning

기존 Our objective is:

자연어처리 - 언어모델링(LM)

17 Aug 2020 in Data Science on ML/DL

NLP - Language Modeling (LM)

언어모델 (LM)이란 문장의 확률을 나타낸 모델

문장 자체의 출현 확률을 예측 하거나,
이전 단어들이 주어졌을 때 다음 단어를 예측하기 위한 모델

Knowledge Graph(KG)에 대하여

개요

회계법인과 디컨 2

MS-Azure 데이터 팩토리로 구축하는 ETL 파이프라인

개요

MS-Azure 데이터 팩토리로 구축하는 ETL 파이프라인

MS-Azure 자격증 AZ Fundamental 900

AZ-900 자격증이란?

빅데이터를 지탱하는 기술 (책을 통한 스터디 2)

빅데이터를 지탱하는 기술 (책을 통한 스터디 1)

들어가며

ES - 키바나를 활용한 데이터 시각화

ES - 일래스틱서치 개요와 기본기능

글또 6기를 시작하며

YOLO V1 - 개요

RPN(Region Proposal network)

1-stage vs. 2-stage Detector

1.이미지 처리 개요

Overview

Time Series

Regression

System Trading

시스템 트레이딩의 정의

Graph Neural Net

Grpah라는 자료구조

NLP - Language Modeling (LM)

FinanceDataReader Package

Intro to Machine Translation

Auto-regressive & Teacher Forcing

n-gram 정리

Interpolation & Back-off

Intro to Language Modeling(LM)

Review: Statistical & Geometric Perspective for Deep Learning

NLP - Language Modeling (LM)

언어모델 (LM)이란 문장의 확률을 나타낸 모델

Pagination