우리 문서에 이런 토큰이 몇 번 나왔어라고 체크하니까 feature 라고 사용해버리니 불용어인데 빈도수가 높으면 중요해져버리고, 중요한데 빈도수가 낮으면 안중요해져버리고. 단순하게 단어의 빈도수만 가지고 평가하는 것은 불충분하다. 그래서 IDF값을 추가로 얹기로 한다.
Term Frequency - Inverse Document Frequency
Bag of Words 에서 하던 Term Frequency 는 같되, IDF를 고려하냐 안 하냐의 차이
IDF: 역 문서빈도수.
우리 문서 내에만 등장하는 건지 다른 문서에도 등장하는 것인지를 같이 고려하는 것
다른 문서에도 많이 등장했으면 우리 문서의 등장했던 것은 중요한 정보가 아니라는 것
ex) 어떤 이성이 밥먹자고 했을 때 나한테만 했는지, 다른 사람에게도 밥먹자고 했는지 확인해야지. 그게 IDF 를 같이 보는 것. 문서 빈도수가 높을 수록 중요도는 떨어진다. 다른 사람에게도 밥먹자고 하면 중요도는 떨어진다.
728x90
반응형
'개발' 카테고리의 다른 글
N-gram (0) | 2022.11.03 |
---|---|
원핫인코딩과 워드 임베딩 (0) | 2022.11.03 |
BoW (Bag of Words) (0) | 2022.11.03 |
크롤링 중 데이터를 받아오지 못할 때. (0) | 2022.10.31 |
c# telegram channel 에서 bot으로 알림 보내기 (0) | 2022.02.28 |