[Python]bigram

콜리킴 2023. 3. 10. 16:58

2023. 3. 10. 16:58

자연어 처리 중 연관단어를 확인하기 위한 방법으로 n-gram을 사용합니다.

가장 보편적으로 사용되는 2개의 연속된 단어를 확인하는 bigram 사용해봤습니다.

nltk 패키지 bigrams 사용했습니다.

from nltk import bigrams #nltk에 bigrams 패키지 사용

#전처리
noun = df['content'].apply(lambda x : [item for item in x if item not in stop_words]) #불용어 제거
noun = df['content'].apply(lambda x : [word for word in if len(word) > 1]) #글자 수가 1개보다 적은 단어는 제거

bgrams = [bigrams(word) for word in noun] #bgrams라는 변수에 전처리된 단어들을 적용

token = []
for i in bgrams:
    token += ([x for x in i])

'프로그래밍언어 > Python' 카테고리의 다른 글

[Python] sqlalchemy로 dataframe을 DB로 바로 저장하기 (0)	2024.01.10
[Python] chromedriver 버전 관리 (0)	2023.11.15
zip()함수 활용하여 반복문에서 리스트 하나이상 활용하기 (0)	2023.06.09
[Python]Counter 함수를 사용한 키워드 등장 빈도 확인 (0)	2023.03.13
[Python]konlpy 사용시 오류(VMNotFoundException) (0)	2022.11.28

콜리의 개발일지

[Python]bigram

'프로그래밍언어 > Python' 카테고리의 다른 글

+ Recent posts

티스토리툴바