데이콘 소설작가 분류 AI경진대회


데이콘 소설작가 분류 AI경진대회

1.개요

1. 주제

  • 문체 분석 알고리즘 개발

2. 배경

  • a. 작가의 글을 분석하여 특징 도출
  • b. 취향 추천 시스템 활용 / 대필, 유사작 탐지

3. 대회 설명

  • 소설 속 문장뭉치 분석을 통한 저자 예측

2.규정

1. 평가

  • 심사 기준: LogLoss
  • 1차 평가(Public Score): 테스트 데이터 중 랜덤 샘플 된 30%로 채점, 대회 기간 중 공개
  • 2차 평가(Private Score): 나머지 70 % 테스트 데이터로 채점, 대회 종료 직후 공개
  • 최종 순위는 선택된 파일 중에서 채점되므로, 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일을 선택해야 함. (최종 파일 미선택시 처음으로 제출한 파일로 자동 선택됨)
  • 대회 직후 공개되는 Private Score 랭킹은 최종 순위가 아니며, 코드 검증 후 최종 수상자가 결정됨

2. 외부 데이터 및 사전 학습 모델

  • 외부 데이터 사용이 불가
  • 사전 학습 모델(pre-trained Model) 사용이 불가

3.최종 Submit & 느낀점 요약

1. 순위

  • 마지막 까지 고심했으나 결국 71위로 마감했음
  • 캐글 커널들 참고해서 해볼만한 전처리는 모두 수행하여 별도 train_preprocessed.csv로 저장함

2. 모델

  • 그 후 다양한 모델들에 임베딩해서 돌려보고 했으나, 의외로 복잡한 것보다 심플한 Fully Connected 모델이 제일 결과가 좋았음
  • 아마도 딥러닝을 제대로 쓸줄 모르는 탓일 수도 있을듯하다.
    • lgbm,rf,cnn,simpleRNN,LSTM,bert+rf 등등 많이 써봤으나 초반 학습이 의외로 잘 안되서 나가리…
  • 실제 고수 상위권 커널들을 대회 종료 후 리뷰해본 결과 XGBoost와 같은 인기있는 ML 모델들 앙상블로도 충분히 loss 를 낮춘 걸 보고 시사하는 바가 컸음

3. 전처리

  • 결국 미세한 승부는 전처리 테크닉에서 난듯 하다.. 정말 각자들 노하우가 상당한듯 하다. 난 아직도 잘 모르겠다.. 대충 자르다보니 얻어걸린것도 있다..

4. 기타

  • 한가지 의외인 것은 의외로 테스트 셋을 학습에 반영시키는 오를 저질러 실격 처리될것 같은 분들이 상당히 보였음

  • 아무래도 주최측에서 프리트레인 모델을 쓰지말라고 한 그 말 자체부터 좀 각기 다른 이해를 불러일으킨 듯 함. 임베딩까지는 된다 안된다 등등.
  • 여튼 최종 목표한 50위권안에는 못들었지만 650여팀 참여한거 치곤 그래도 대충 10프로 안팍으로 마무리하였으니.. 또 도전해보자. 화이팅

이 글이 도움이 되셨다면 추천 클릭을 부탁드립니다 :)

Buy me a coffeeBuy me a coffee





© 2020 modified by Tae You Kim

Powered by "shoman2"