CountVectorizer 를 이용해서 문서에 나온 단어 빈도수 뽑아보기

개발

CountVectorizer 를 이용해서 문서에 나온 단어 빈도수 뽑아보기

내공얌냠 2022. 11. 19. 11:00

Purpose

CountVectorizer를 이용해서 문서에 나온 단어 빈도수 뽑아보기

Source

from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import numpy as np

dict_voca = {}
final_voca = {}

bow = CountVectorizer() 

X_train = document

X_train_bow = bow.fit_transform(X_train)

sorted_voca = sorted(bow.vocabulary_.items())

for word, index in sorted_voca:
  dict_voca[index] = word

array_voca = X_train_bow.toarray()

df_voca = pd.DataFrame(array_voca)

for index, count in enumerate(df_voca.sum()):
  final_voca[dict_voca[index]] = count

sort_orders = sorted(final_voca.items(), key=lambda x: x[1], reverse=False)

print(sort_orders)

Execute

728x90