728x90
반응형
import re
특수문자 제거
text_data = '특수문자를 제거 할 데이터'
text_data = re.sub('[\{\}\[\]\/?.,;:|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]', '', text_data)
# re 함수 파라미터
# 1번 input : 전처리 할 데이터
# 2번 input : 불용어를 대체할 텍스트, '' 으로 공백표시 하기도함
# 3번 input : 전처리 한 데이터를 담을 공간
불용어 제거
- 리스트에 제거할 단어들을 정의한다.
- For문을 실행하며, re 함수를 활용해 제거한다.
stopword =['추천','제가','나는','한자','영어','헤']
for word in stopword:
text_data = re.sub(word, '', text_data)
응용
- For문을 활용하여 특수문자 제거와 불용어 제거를 한 Loop로 동작 시킨다.
text_data = pd.read_csv("파일위치")
cleaned_corpus = []
stopword =['추천','제가','나는','한자','영어','헤']
for text in text_data:
# 1. 특수문자 제거
text = re.sub('[\{\}\[\]\/?.,;:|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]', '', text)
# 2. 불용어 제거
for word in stopword:
text = re.sub(word, '', text)
cleaned_corpus.append(text)
반응형
'자연어 처리 - 파이썬' 카테고리의 다른 글
[자연어 처리] Do it! BERT 와 GPT로 배우는 자연어처리 요 (0) | 2022.12.07 |
---|---|
[자연어 처리] nn.Embedding() 함수 사용법 (0) | 2022.11.21 |
댓글