데이콘 소설작가 분류 AI경진대회
in Data Science on Kaggle
데이콘 소설작가 분류 AI경진대회
1.개요
1. 주제
- 문체 분석 알고리즘 개발
2. 배경
- a. 작가의 글을 분석하여 특징 도출
- b. 취향 추천 시스템 활용 / 대필, 유사작 탐지
3. 대회 설명
- 소설 속 문장뭉치 분석을 통한 저자 예측
2.규정
1. 평가
- 심사 기준: LogLoss
- 1차 평가(Public Score): 테스트 데이터 중 랜덤 샘플 된 30%로 채점, 대회 기간 중 공개
- 2차 평가(Private Score): 나머지 70 % 테스트 데이터로 채점, 대회 종료 직후 공개
- 최종 순위는 선택된 파일 중에서 채점되므로, 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일을 선택해야 함. (최종 파일 미선택시 처음으로 제출한 파일로 자동 선택됨)
- 대회 직후 공개되는 Private Score 랭킹은 최종 순위가 아니며, 코드 검증 후 최종 수상자가 결정됨
2. 외부 데이터 및 사전 학습 모델
- 외부 데이터 사용이 불가
- 사전 학습 모델(pre-trained Model) 사용이 불가
3.최종 Submit & 느낀점 요약
1. 순위
- 마지막 까지 고심했으나 결국 71위로 마감했음
- 캐글 커널들 참고해서 해볼만한 전처리는 모두 수행하여 별도 train_preprocessed.csv로 저장함
2. 모델
- 그 후 다양한 모델들에 임베딩해서 돌려보고 했으나, 의외로 복잡한 것보다 심플한 Fully Connected 모델이 제일 결과가 좋았음
- 아마도 딥러닝을 제대로 쓸줄 모르는 탓일 수도 있을듯하다.
- lgbm,rf,cnn,simpleRNN,LSTM,bert+rf 등등 많이 써봤으나 초반 학습이 의외로 잘 안되서 나가리…
- 실제 고수 상위권 커널들을 대회 종료 후 리뷰해본 결과 XGBoost와 같은 인기있는 ML 모델들 앙상블로도 충분히 loss 를 낮춘 걸 보고 시사하는 바가 컸음
3. 전처리
- 결국 미세한 승부는 전처리 테크닉에서 난듯 하다.. 정말 각자들 노하우가 상당한듯 하다. 난 아직도 잘 모르겠다.. 대충 자르다보니 얻어걸린것도 있다..
4. 기타
한가지 의외인 것은 의외로 테스트 셋을 학습에 반영시키는 오를 저질러 실격 처리될것 같은 분들이 상당히 보였음
- 아무래도 주최측에서 프리트레인 모델을 쓰지말라고 한 그 말 자체부터 좀 각기 다른 이해를 불러일으킨 듯 함. 임베딩까지는 된다 안된다 등등.
- 여튼 최종 목표한 50위권안에는 못들었지만 650여팀 참여한거 치곤 그래도 대충 10프로 안팍으로 마무리하였으니.. 또 도전해보자. 화이팅
이 글이 도움이 되셨다면 추천 클릭을 부탁드립니다 :)