본문 바로가기

자연어 처리 - 파이썬3

[자연어 처리] Do it! BERT 와 GPT로 배우는 자연어처리 요 1-1 딥러닝 기반 자연어 처리 모델 모델의 출력은 0과1사이에 확률이다. 아웃풋으로 나온 확률 값을 활용하여 후처리(레이어추가?)하여 자연어 형태로 가공 반환. 2번을 하는 이유는 문서 분류, 문장 쌍 분류, 개체명 인식, 질의응답, 문장생성 등의 과제를 해결하기 위함. 학습데이터에는 문장과 레이블(라벨)이 쌍으로 구성됨. 학습시 모델의 출력값이 레이블 값과 가까우도록 업데이트 함. 1-2 트랜스퍼 러닝 트랜스퍼 러닝(transfer learning) : 특정 테스크를 학습한 모델을 다른 테스크 수행에 재사용 하는 기법. 1번을 비유를 하면 경험을 재활용한다는 의미. 특정 태스크(과제)를 학습한 모델을 다른 태스크 수행에 재사용하는 기법. 업스트림(upstream) : 문장의 다음 단어 맞히기, 빈칸 .. 2022. 12. 7.
[자연어 처리] nn.Embedding() 함수 사용법 import torch.nn as nn courpus = 'I am a good boy' courpus_split = courpus.split() # 단어가 분리된 문장 word_set = set(courpus.split())# 중복 단어 제거 vocabulary = dict = {'': '0', '': '1'} # 단어 사전 # 모르는 단어에 적용 # 문장 길이를 맞추기 위해 적용 # 단어 사전 만들기 for i, word in enumerate(word_set): vocabulary[word] = i+2 # i+2는 위에 특별 토큰 , 추가 한 것을 표시 # 숫자로 구성된 문장 만들기 number_coupus = [] for word in courpus_split: number_coupus.appen.. 2022. 11. 21.
[자연어 처리] 특수 문자 제거 - re 함수, Stopword(불용어) 제거 import re 특수문자 제거 text_data = '특수문자를 제거 할 데이터' text_data = re.sub('[\{\}\[\]\/?.,;:|\)*~`!^\-_+@\#$%&\\\=\(\'\"]', '', text_data) # re 함수 파라미터 # 1번 input : 전처리 할 데이터 # 2번 input : 불용어를 대체할 텍스트, '' 으로 공백표시 하기도함 # 3번 input : 전처리 한 데이터를 담을 공간 불용어 제거 리스트에 제거할 단어들을 정의한다. For문을 실행하며, re 함수를 활용해 제거한다. stopword =['추천','제가','나는','한자','영어','헤'] for word in stopword: text_data = re.sub(word, '', text_data) .. 2022. 11. 20.
728x90