bag of words

· 개발
벡터화. BoW(Bag of Words): 토큰의 빈도수 -> 숫자 (문서의 의미 정보) 어떤 토큰이 얼마나 많이 나왔나. 1) 하나의 문서 이상 등장한 모든 토큰 수집 2) 수집한 토큰 뭉치 -> 문서의 feature(의미를 갖고 있는 정보)로 삼겠다 3) 각 문서마다 토큰(feature)의 빈도수를 카운팅 (여러 텍스트의 BoW를 결합하여 문서단어행렬(DTM)을 만들 수 있다.) -> 이제 카운팅한 feature기준으로 여러 분석을 수행할 수 있다. 예측하고자 하는 것에 대해 불용어(쓸모없는 것)들은 사전에 버려야 한다. 1) 빈도수가 높은 불용어에 의해서 왜곡이 일어난다. -> 불용어를 직접 날리면서 해결 2) 희소표현 표현 문제 -> 하나 이상 등장했으면 모은다는 기준을 높여주면 된다. 열 개 이..
내공얌냠
'bag of words' 태그의 글 목록