개발
BoW (Bag of Words)
내공얌냠
2022. 11. 3. 10:40
벡터화.
BoW(Bag of Words): 토큰의 빈도수 -> 숫자 (문서의 의미 정보)
어떤 토큰이 얼마나 많이 나왔나.
1) 하나의 문서 이상 등장한 모든 토큰 수집
2) 수집한 토큰 뭉치 -> 문서의 feature(의미를 갖고 있는 정보)로 삼겠다
3) 각 문서마다 토큰(feature)의 빈도수를 카운팅
(여러 텍스트의 BoW를 결합하여 문서단어행렬(DTM)을 만들 수 있다.)
-> 이제 카운팅한 feature기준으로 여러 분석을 수행할 수 있다.
예측하고자 하는 것에 대해 불용어(쓸모없는 것)들은 사전에 버려야 한다.
1) 빈도수가 높은 불용어에 의해서 왜곡이 일어난다.
-> 불용어를 직접 날리면서 해결
2) 희소표현 표현 문제
-> 하나 이상 등장했으면 모은다는 기준을 높여주면 된다. 열 개 이상이든, 미니멈을 높게 잡아주면 된다.
728x90
반응형