Knowledge Graph (KG)에 대하여
in Data Science on ML/DL
Knowledge Graph(KG)에 대하여
개요
KG에 대해서는 개인적으로 약학/의약쪽 연구를 수행하면서 밀접히 접하게 되었다.
사실 단순 뉴럴넷과 분류 모형 정도 만들어서 끝내려고 했으나.. 어쩌다 보니 네트워크를 그려보게 되었고
관련 논문과 기타 내용들을 찾아보다가 결국 KG라는 필드에 빠져들게 되었다… 참고로 머리가 매우 빠가지는 익숙치 않은 영역이라 아주 고전하고있다는 .ㅠ.ㅠ
KG란?
- KG란 지식 그래프로써 텍스트 및 기타 정보들로 부터 특정 도메인의 지식들을 그래프 형태로 표현하여 그 관계들을 추적하고 연구하는 영역이다.
- 이에 AI분야와 접목되어 학습과 예측 들을 수행하는 맥락은 유사한 것으로 보이는데
- 기본적으로 거미줄 처럼 퍼져있는 네트워크들을 학습 시킨다는 자체가 잘 이해가 안되었다는..
AI in KG
- 위에서 말한것 처럼 결국 학습을 시키기 위해선 Representation Learning 이 되어야 한다. Knowledge자체 텍스트 및 정보들 그대로는 컴퓨터가 연산이 불가하기 때문에 연산 가능한 차원으로 보내어 벡터화 해야한다는 것
- 기본적으로 DeepWalk 또는 Node2Vec 이라는 알고리즘은 위와 같이 작동한다.
- 노드들을 굵게 묶은 후
- 노드와 링크들을 잘 펴서 벡터화 완료되면
- 이를 뉴럴넷 등의 신경망 모델에 넣어서 학습시킨다.
- 은근 매우 신기하다. 저 복잡한 네트워크를 수치화해서 컴퓨팅이 가능하다니.
이종 네트워크 학습 알고리즘
- Hetrogeneous , 즉 이종 정보들을 가지고 네트워크를 그려서 학습시키는 알고리즘은 다음과 같다.
- HIN2Vec
![![PDF] HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning Semantic Scholar](https://d3i71xaburhd42.cloudfront.net/9d9d33843d018a77bad7f40da8f27671d29cd776/4-Figure4-1.png)]()
- Matapath2Vec
![![PDF] metapath2vec: Scalable Representation Learning for Heterogeneous Networks Semantic Scholar](https://d3i71xaburhd42.cloudfront.net/a0775fab3b20f2dc0ac2f2626552d046b6afc225/4-Figure2-1.png)]()
- Subgraph2Vec
![![PDF] subgraph2vec: Learning Distributed Representations of Rooted Sub-graphs from Large Graphs Semantic Scholar](https://d3i71xaburhd42.cloudfront.net/e02f59cf876cb40233573ff78a1609f969d301cc/1-Figure1-1.png)
- HIN2Vec
동종 네트워크 학습 알고리즘
- Homogenious, 동종 정보들을 가지고 네트워크를 그려서 학습시키는 알고리즘은 다음과 같다.
- DeepWalk
- Node2Vec (가장 흔함)
![Node2Vec: Scalable Feature Learning for Networks ML with Graphs (Research Paper Walkthrough) - YouTube](https://i.ytimg.com/vi/LpwGZG5j_q0/maxresdefault.jpg)
- LINE
- DeepWalk
- 하나하나 구현해보고 싶으나 결국 노드투벡이나 딥워크 같은 경우 깃헙에 코드가 가득하고 나머지는 솔직히 잘 모르겠다. 직접 다 짜야하나 싶을정도로 엄청나게 이야기가 많다.
추가 리서치?
- 개인적으로는 Story Embedding이라는 영역에 대해 리서치 해보고 싶다. 과연 사람이 읽고 이해하는 스토리들을 컴퓨터에 임베딩시켜서 무언가 태스크가 가능해진다면 진짜 상상하는 인간지능을 모방한 인공지능이 나올수 있지않을까 싶은..?
감사합니다.
글 11편을 아래와 같이 기획해본다.
1.글또 6기를 시작하며 (Done!)
2.ES - 일래스틱서치 개요와 기능들(Done!)
3.ES - 키바나를 활용한 데이터 시각화(Done!)
4.빅데이터를 지탱하하는 기술 (책을 통한 스터디 1 - Done!)
5.빅데이터를 지탱하는 기술(책을 통한 스터디 2 - Done!)
6.Azure - AZ Fundamental 900로 알아보는 기본 Azure 아키텍쳐 (Done!)
7.Azure - Data Factory로 구축하는 ETL 파이프라인(Done)
8.회계법인(Accounting Firm)과 디지털 컨설팅 1 (Done)
9.회계법인(Accounting Firm)과 디지털 컨설팅 2(Done!)
10.Knowledge Graph (KG에 대하여, Done)
11.2021년을 회고하며.. 글또 6기 마무리 글
이 글이 도움이 되셨다면 추천 클릭을 부탁드립니다 :)