이전 글 참고

Github


한국어 지역 방언 분류

https://github.com/dorae222/HAI_Kaggle_Competition

최종정리

캐글에서 타이타닉 데이터셋 제출을 해본 것을 제외하고, 직접 Commit 해보는 것은 처음이었습니다.

현재 기준으로 97.2%정도의 정확도로 2등에 위치해 있습니다.

https://blog.kakaocdn.net/dn/dtlKLB/btsrxoOnig1/wLN9N6DQ2KAB3om9Vw1Ic0/img.png

실험을 진행하며 이번 대회에서 성능을 높이기 위한 포인트를 몇가지 남겨보고자 합니다.

(자세한 코드가 궁금하다면 아래 링크에서 확인 가능합니다.)

코드 리뷰

1. 왜 GPT 계열이 아닌 BERT 계열을 선택해야 하는가?

(이 부분과 관련하여 이전 글 제일 아래 부분에서 간략하게 다루었습니다.)

머신러닝 기법들도 적용을 했을 때, 전처리에 심혈을 기울였음에도

성능이 80% 이상 나오지 않아 BERT 계열의 모델을 최종적으로 선택하였습니다.

2. 데이터셋의 분포를 고려해야 한다.