본문 바로가기
책 리뷰/IT

[포럼] if(kakao)dev2022 "메일 카테고리 분류 모델 개발기"

by Kc93 2022. 12. 8.
728x90
반응형

데이터 전처리 

  • 각 카데고리별로 동일한 양을 넣어주어야하는 것은 자명 
  • 한 카테고리 내에서 균형있는 메일의 양 또한 중요한 문제

이말을 듣고 내가 잘못하고 있었구나 느꼈다. 내 피처는 86가지정도 되는데 얘네들이 동일한 양인지는 생각 안했다.

한 피처의 양이 데이터에 대부분이라면 모델 학습시 정확도가 떨어지는 아웃풋을 내놓는다는 것이다. 그래서 내가 계속 정확도가 떨어지는 결과를 받아왔나 보다.

발표자는 이를 데이터를 균등히 조절하여 학습을 시켰다고 했다.

검증

이전 실험에 관한 글에서도 보면 AB테스트를 했다. 기존 모델과 만들어진 모델의 정확도를 비교하는 작업이다.

여기서 눈이 갔던 포인트는 검증의 결과를 시각화였다. 수치를 표에 넣어 차이를 보여주기 보다 파이 그래프를 활용했다.

수치로 보여 줄 것인지, 그래프를 활용 할 것인지 중요한 포인트였던거 같다. 이전 모델 보다 좀 더 정교하게 메일을 구분했다는 의견을 위해 그래프를 활용했다. 수치로 비교했다면 크게 와닿지 않았을 것이다.

발표자는 모델 검증을 하면서 생긴 문제점을 너무 많은 데이터로 정의했고, 문제 해결을 위해 데이터 전처리를 했다. 최대한 묶을 수 있는 데이터를 묶어두고 그럼에도 생기는 데이터들은 클러스터링을 활용하여 데이터를 줄여갔다.

각 테스크는 가능한 가볍게 수행해라.

필자는 완벽주의 성향을 가졌다. 자연어 처리 모델을 구현하면서 작은 것도 완벽히 하려는 마음에 진행이 더뎌지고 갈피를 못잡았다. 발표자의 한 문장에 많은 걸 느끼고 반성한다. 각각의 테스크들 앞에서 본인이 할 수 있는 가장 쉬운 방법으로 해결하자. 모델이 완성하고나서 테스크들을 다시 확인해도 늦지 않다. 

반응형

댓글