자연어 처리 중 연관단어를 확인하기 위한 방법으로 n-gram을 사용합니다.
가장 보편적으로 사용되는 2개의 연속된 단어를 확인하는 bigram 사용해봤습니다.
nltk 패키지 bigrams 사용했습니다.
from nltk import bigrams #nltk에 bigrams 패키지 사용
#전처리
noun = df['content'].apply(lambda x : [item for item in x if item not in stop_words]) #불용어 제거
noun = df['content'].apply(lambda x : [word for word in if len(word) > 1]) #글자 수가 1개보다 적은 단어는 제거
bgrams = [bigrams(word) for word in noun] #bgrams라는 변수에 전처리된 단어들을 적용
token = []
for i in bgrams:
token += ([x for x in i])
'프로그래밍언어 > Python' 카테고리의 다른 글
[Python] sqlalchemy로 dataframe을 DB로 바로 저장하기 (0) | 2024.01.10 |
---|---|
[Python] chromedriver 버전 관리 (0) | 2023.11.15 |
zip()함수 활용하여 반복문에서 리스트 하나이상 활용하기 (0) | 2023.06.09 |
[Python]Counter 함수를 사용한 키워드 등장 빈도 확인 (0) | 2023.03.13 |
[Python]konlpy 사용시 오류(VMNotFoundException) (0) | 2022.11.28 |