본문 바로가기
자연어 처리 - 파이썬

[자연어 처리] 특수 문자 제거 - re 함수, Stopword(불용어) 제거

by Kc93 2022. 11. 20.
728x90
반응형

python

 

import re

특수문자 제거

text_data = '특수문자를 제거 할 데이터'
text_data = re.sub('[\{\}\[\]\/?.,;:|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]', '', text_data)
 
# re 함수 파라미터 
# 1번 input : 전처리 할 데이터
# 2번 input : 불용어를 대체할 텍스트, '' 으로 공백표시 하기도함
# 3번 input : 전처리 한 데이터를 담을 공간

 

불용어 제거

  • 리스트에 제거할 단어들을 정의한다.
  • For문을 실행하며, re 함수를 활용해 제거한다.
stopword =['추천','제가','나는','한자','영어','헤']

for word in stopword:
  text_data = re.sub(word, '', text_data)

 

응용

  • For문을 활용하여 특수문자 제거와 불용어 제거를 한  Loop로  동작 시킨다. 
text_data = pd.read_csv("파일위치")
cleaned_corpus = []
stopword =['추천','제가','나는','한자','영어','헤']

for text in text_data:
	# 1. 특수문자 제거  
	text = re.sub('[\{\}\[\]\/?.,;:|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]', '', text) 
	# 2. 불용어 제거 
	for word in stopword:
		text = re.sub(word, '', text)
	cleaned_corpus.append(text)
반응형

댓글