728x90
반응형
1-1 딥러닝 기반 자연어 처리 모델
- 모델의 출력은 0과1사이에 확률이다.
- 아웃풋으로 나온 확률 값을 활용하여 후처리(레이어추가?)하여 자연어 형태로 가공 반환.
- 2번을 하는 이유는 문서 분류, 문장 쌍 분류, 개체명 인식, 질의응답, 문장생성 등의 과제를 해결하기 위함.
- 학습데이터에는 문장과 레이블(라벨)이 쌍으로 구성됨.
- 학습시 모델의 출력값이 레이블 값과 가까우도록 업데이트 함.
1-2 트랜스퍼 러닝
- 트랜스퍼 러닝(transfer learning) : 특정 테스크를 학습한 모델을 다른 테스크 수행에 재사용 하는 기법.
- 1번을 비유를 하면 경험을 재활용한다는 의미. 특정 태스크(과제)를 학습한 모델을 다른 태스크 수행에 재사용하는 기법.
- 업스트림(upstream) : 문장의 다음 단어 맞히기, 빈칸 채우기 등 문맥을 이해하는 과제, 마스크 언어 모델이라고도 함. 업스트림을 학습하는 과정을 프리트레인(pretrain)이라고 부른다. 다운스트림을 하기전 미리 학습한다는 의미
- 다운스트림(downstream) : 문서 분류, 개체명 인식 등 우리가 풀고자하는 문제들, 다운스트림의 학습 방식은 모두 파인 튜닝(fine-tuning)
- 파인 튜닝(fine-tuning) : 프리트레인을 마친 모델을 다운스트림에 맞게 업데이트하는 기법
- 다운스트림 구조를 보면 프리트레인을 마친 모델 위에 작은 모듈을 하나 더 쌓아 테스크를 푸는 구조
내 생각 : 1-2장의 6번을 읽으면서 그동안 내가 트랜스포머 모델을 구현하면서 해매고 있던 부분이였다. 왜 정확도가 올라가지 않는지 그리고 그럴 수 밖에 없는지 알 것 같았다. 아마 인코더로 학습을 하면 프리트레인을 하지 않기 때문에 정확도가 떨어지는 것 같다.
반응형
'자연어 처리 - 파이썬' 카테고리의 다른 글
[자연어 처리] nn.Embedding() 함수 사용법 (0) | 2022.11.21 |
---|---|
[자연어 처리] 특수 문자 제거 - re 함수, Stopword(불용어) 제거 (1) | 2022.11.20 |
댓글