Purpose
CountVectorizer를 이용해서 문서에 나온 단어 빈도수 뽑아보기
Source
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import numpy as np
dict_voca = {}
final_voca = {}
bow = CountVectorizer()
X_train = document
X_train_bow = bow.fit_transform(X_train)
sorted_voca = sorted(bow.vocabulary_.items())
for word, index in sorted_voca:
dict_voca[index] = word
array_voca = X_train_bow.toarray()
df_voca = pd.DataFrame(array_voca)
for index, count in enumerate(df_voca.sum()):
final_voca[dict_voca[index]] = count
sort_orders = sorted(final_voca.items(), key=lambda x: x[1], reverse=False)
print(sort_orders)
Execute
728x90
반응형
'개발' 카테고리의 다른 글
퍼셉트론은 선형분류기, 다층퍼셉트론은 비선형분류기 (0) | 2022.11.21 |
---|---|
문서 간 유사도를 구하는 3가지 방법 (0) | 2022.11.19 |
2022.11.17 특강 (0) | 2022.11.17 |
텍스트 마이닝 총정리 (0) | 2022.11.16 |
python googletrans (0) | 2022.11.10 |