데이콘 소설작가 분류 AI경진대회

10 Dec 2020 in Data Science on Kaggle

데이콘 소설작가 분류 AI경진대회

1.개요

1. 주제

문체 분석 알고리즘 개발

2. 배경

a. 작가의 글을 분석하여 특징 도출
b. 취향 추천 시스템 활용 / 대필, 유사작 탐지

3. 대회 설명

소설 속 문장뭉치 분석을 통한 저자 예측

2.규정

1. 평가

심사 기준: LogLoss
1차 평가(Public Score): 테스트 데이터 중 랜덤 샘플 된 30%로 채점, 대회 기간 중 공개
2차 평가(Private Score): 나머지 70 % 테스트 데이터로 채점, 대회 종료 직후 공개
최종 순위는 선택된 파일 중에서 채점되므로, 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일을 선택해야 함. (최종 파일 미선택시 처음으로 제출한 파일로 자동 선택됨)
대회 직후 공개되는 Private Score 랭킹은 최종 순위가 아니며, 코드 검증 후 최종 수상자가 결정됨

2. 외부 데이터 및 사전 학습 모델

외부 데이터 사용이 불가
사전 학습 모델(pre-trained Model) 사용이 불가

3.최종 Submit & 느낀점 요약

1. 순위

마지막 까지 고심했으나 결국 71위로 마감했음
캐글 커널들 참고해서 해볼만한 전처리는 모두 수행하여 별도 train_preprocessed.csv로 저장함

2. 모델

그 후 다양한 모델들에 임베딩해서 돌려보고 했으나, 의외로 복잡한 것보다 심플한 Fully Connected 모델이 제일 결과가 좋았음
아마도 딥러닝을 제대로 쓸줄 모르는 탓일 수도 있을듯하다.
- lgbm,rf,cnn,simpleRNN,LSTM,bert+rf 등등 많이 써봤으나 초반 학습이 의외로 잘 안되서 나가리…
실제 고수 상위권 커널들을 대회 종료 후 리뷰해본 결과 XGBoost와 같은 인기있는 ML 모델들 앙상블로도 충분히 loss 를 낮춘 걸 보고 시사하는 바가 컸음

3. 전처리

결국 미세한 승부는 전처리 테크닉에서 난듯 하다.. 정말 각자들 노하우가 상당한듯 하다. 난 아직도 잘 모르겠다.. 대충 자르다보니 얻어걸린것도 있다..

4. 기타

한가지 의외인 것은 의외로 테스트 셋을 학습에 반영시키는 오를 저질러 실격 처리될것 같은 분들이 상당히 보였음
아무래도 주최측에서 프리트레인 모델을 쓰지말라고 한 그 말 자체부터 좀 각기 다른 이해를 불러일으킨 듯 함. 임베딩까지는 된다 안된다 등등.
여튼 최종 목표한 50위권안에는 못들었지만 650여팀 참여한거 치곤 그래도 대충 10프로 안팍으로 마무리하였으니.. 또 도전해보자. 화이팅

이 글이 도움이 되셨다면 추천 클릭을 부탁드립니다 :)

Buy me a coffee