본문 바로가기

카카오2

[포럼] if(kakao)dev2022 "메일 카테고리 분류 모델 개발기" 데이터 전처리 각 카데고리별로 동일한 양을 넣어주어야하는 것은 자명 한 카테고리 내에서 균형있는 메일의 양 또한 중요한 문제 이말을 듣고 내가 잘못하고 있었구나 느꼈다. 내 피처는 86가지정도 되는데 얘네들이 동일한 양인지는 생각 안했다. 즉 한 피처의 양이 데이터에 대부분이라면 모델 학습시 정확도가 떨어지는 아웃풋을 내놓는다는 것이다. 그래서 내가 계속 정확도가 떨어지는 결과를 받아왔나 보다. 발표자는 이를 데이터를 균등히 조절하여 학습을 시켰다고 했다. 검증 이전 실험에 관한 글에서도 보면 AB테스트를 했다. 기존 모델과 만들어진 모델의 정확도를 비교하는 작업이다. 여기서 눈이 갔던 포인트는 검증의 결과를 시각화였다. 수치를 표에 넣어 차이를 보여주기 보다 파이 그래프를 활용했다. 수치로 보여 줄 것.. 2022. 12. 8.
[포럼] if(kakao)dev2022 "실험을 잘한다는 것은 무엇일까?" 머신러닝 기술을 활용하여 비즈니스 문제를 해결하는 과정에는 많은 실험이 필요합니다. 그동안 실험하면서 시행 착오를 겪었던 것들, 중요하다고 생각한 것에 대해 공유드릴게요. "실험 결과를 어떻게 남겨야 다음 실험에 도움이 될 수 있을까요?" Answer "실험에는 승부수가 있어야합니다. 이 실험이 성공할거라고 생각하는 이유 " 단순히 성능이 좋다고 입증된 논문을 가지고 실험을 한다면, 실패 했을때 피드백을 정확하게 받을 수 없다. 스스로 가설을 세워 가설을 입증을 위한 실험으로 접근하는 것이 효율적이다. 여기서 발표자는 "문제해결의 핵심이 되는 특징, Key Feature","문제환경, Environment" 이 두가지 키워드를 꼽는다. 이것을 가지고 승부수(논리)를 만들어 실험을 진행하면 다음 실험에 도.. 2022. 12. 8.
728x90