[자연어 처리] Do it! BERT 와 GPT로 배우는 자연어처리 요

728x90

트랜스퍼 러닝(transfer learning) : 특정 테스크를 학습한 모델을 다른 테스크 수행에 재사용 하는 기법.
1번을 비유를 하면 경험을 재활용한다는 의미. 특정 태스크(과제)를 학습한 모델을 다른 태스크 수행에 재사용하는 기법.
업스트림(upstream) : 문장의 다음 단어 맞히기, 빈칸 채우기 등 문맥을 이해하는 과제, 마스크 언어 모델이라고도 함. 업스트림을 학습하는 과정을 프리트레인(pretrain)이라고 부른다. 다운스트림을 하기전 미리 학습한다는 의미
다운스트림(downstream) : 문서 분류, 개체명 인식 등 우리가 풀고자하는 문제들, 다운스트림의 학습 방식은 모두 파인 튜닝(fine-tuning)
파인 튜닝(fine-tuning) : 프리트레인을 마친 모델을 다운스트림에 맞게 업데이트하는 기법
다운스트림 구조를 보면 프리트레인을 마친 모델 위에 작은 모듈을 하나 더 쌓아 테스크를 푸는 구조

내 생각 : 1-2장의 6번을 읽으면서 그동안 내가 트랜스포머 모델을 구현하면서 해매고 있던 부분이였다. 왜 정확도가 올라가지 않는지 그리고 그럴 수 밖에 없는지 알 것 같았다. 아마 인코더로 학습을 하면 프리트레인을 하지 않기 때문에 정확도가 떨어지는 것 같다.

[자연어 처리] nn.Embedding() 함수 사용법 (0)	2022.11.21
[자연어 처리] 특수 문자 제거 - re 함수, Stopword(불용어) 제거 (1)	2022.11.20

생각하는 개구리