벡터화.
BoW(Bag of Words): 토큰의 빈도수 -> 숫자 (문서의 의미 정보)
어떤 토큰이 얼마나 많이 나왔나.
1) 하나의 문서 이상 등장한 모든 토큰 수집
2) 수집한 토큰 뭉치 -> 문서의 feature(의미를 갖고 있는 정보)로 삼겠다
3) 각 문서마다 토큰(feature)의 빈도수를 카운팅
(여러 텍스트의 BoW를 결합하여 문서단어행렬(DTM)을 만들 수 있다.)
-> 이제 카운팅한 feature기준으로 여러 분석을 수행할 수 있다.
예측하고자 하는 것에 대해 불용어(쓸모없는 것)들은 사전에 버려야 한다.
1) 빈도수가 높은 불용어에 의해서 왜곡이 일어난다.
-> 불용어를 직접 날리면서 해결
2) 희소표현 표현 문제
-> 하나 이상 등장했으면 모은다는 기준을 높여주면 된다. 열 개 이상이든, 미니멈을 높게 잡아주면 된다.
728x90
반응형
'개발' 카테고리의 다른 글
원핫인코딩과 워드 임베딩 (0) | 2022.11.03 |
---|---|
TF-IDF (0) | 2022.11.03 |
크롤링 중 데이터를 받아오지 못할 때. (0) | 2022.10.31 |
c# telegram channel 에서 bot으로 알림 보내기 (0) | 2022.02.28 |
c# telegrambot api (0) | 2022.02.28 |