본문 바로가기
자연어 처리 - 파이썬

[자연어 처리] Do it! BERT 와 GPT로 배우는 자연어처리 요

by Kc93 2022. 12. 7.
728x90
반응형

1-1 딥러닝 기반 자연어 처리 모델

  1. 모델의 출력은 0과1사이에 확률이다.
  2. 아웃풋으로 나온 확률 값을 활용하여 후처리(레이어추가?)하여 자연어 형태로 가공 반환.
  3. 2번을 하는 이유는 문서 분류, 문장 쌍 분류, 개체명 인식, 질의응답, 문장생성 등의 과제를 해결하기 위함.
  4. 학습데이터에는 문장과 레이블(라벨)이 쌍으로 구성됨.
  5. 학습시 모델의 출력값이 레이블 값과 가까우도록 업데이트 함.

 

python

 

1-2  트랜스퍼 러닝

  1. 트랜스퍼 러닝(transfer learning) : 특정 테스크를 학습한 모델을 다른 테스크 수행에 재사용 하는 기법.
  2. 1번을 비유를 하면 경험을 재활용한다는 의미. 특정 태스크(과제)를 학습한 모델을 다른 태스크 수행에 재사용하는 기법.
  3. 업스트림(upstream) : 문장의 다음 단어 맞히기, 빈칸 채우기 등 문맥을 이해하는 과제, 마스크 언어 모델이라고도 함. 업스트림을 학습하는 과정을 프리트레인(pretrain)이라고 부른다. 다운스트림을 하기전 미리 학습한다는 의미
  4. 다운스트림(downstream) : 문서 분류, 개체명 인식 등 우리가 풀고자하는 문제들, 다운스트림의 학습 방식은 모두 파인 튜닝(fine-tuning)
  5. 파인 튜닝(fine-tuning) : 프리트레인을 마친 모델을 다운스트림에 맞게 업데이트하는 기법
  6. 다운스트림 구조를 보면 프리트레인을 마친 모델 위에 작은 모듈을 하나 더 쌓아 테스크를 푸는 구조

내 생각 : 1-2장의 6번을 읽으면서 그동안 내가 트랜스포머 모델을 구현하면서 해매고 있던 부분이였다. 왜 정확도가 올라가지 않는지 그리고 그럴 수 밖에 없는지 알 것 같았다. 아마 인코더로 학습을 하면 프리트레인을 하지 않기 때문에 정확도가 떨어지는 것 같다. 

반응형

댓글