TF-IDF

2022. 11. 3. 10:49· 개발

우리 문서에 이런 토큰이 몇 번 나왔어라고 체크하니까 feature 라고 사용해버리니 불용어인데 빈도수가 높으면 중요해져버리고, 중요한데 빈도수가 낮으면 안중요해져버리고. 단순하게 단어의 빈도수만 가지고 평가하는 것은 불충분하다. 그래서 IDF값을 추가로 얹기로 한다.

Term Frequency - Inverse Document Frequency

Bag of Words 에서 하던 Term Frequency 는 같되, IDF를 고려하냐 안 하냐의 차이

IDF: 역 문서빈도수.

우리 문서 내에만 등장하는 건지 다른 문서에도 등장하는 것인지를 같이 고려하는 것

다른 문서에도 많이 등장했으면 우리 문서의 등장했던 것은 중요한 정보가 아니라는 것

ex) 어떤 이성이 밥먹자고 했을 때 나한테만 했는지, 다른 사람에게도 밥먹자고 했는지 확인해야지. 그게 IDF 를 같이 보는 것. 문서 빈도수가 높을 수록 중요도는 떨어진다. 다른 사람에게도 밥먹자고 하면 중요도는 떨어진다.

728x90
반응형

'개발' 카테고리의 다른 글

N-gram  (0) 2022.11.03
원핫인코딩과 워드 임베딩  (0) 2022.11.03
BoW (Bag of Words)  (0) 2022.11.03
크롤링 중 데이터를 받아오지 못할 때.  (0) 2022.10.31
c# telegram channel 에서 bot으로 알림 보내기  (0) 2022.02.28
'개발' 카테고리의 다른 글
  • N-gram
  • 원핫인코딩과 워드 임베딩
  • BoW (Bag of Words)
  • 크롤링 중 데이터를 받아오지 못할 때.
내공얌냠
내공얌냠
내공냠냠
내공냠냠내공냠냠
내공얌냠
내공냠냠
내공얌냠
전체
오늘
어제
  • 분류 전체보기 (254)
    • 개발 (113)
      • mediapipe (16)
      • insightface (5)
      • JongjuAR (3)
    • 자료구조 알고리즘 (79)
      • 코딩테스트 (64)
      • 이론 (15)
    • 공부 (7)
      • 단행본 (7)
      • 튜토리얼 (19)
      • 논문 (15)
      • 복기 (5)
    • 참여 (5)

블로그 메뉴

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

공지사항

인기 글

태그

  • 플러터 튜토리얼
  • google mediapipe
  • flutter tutorial
  • kubeflow설치가이드
  • 음성인식 기초
  • 깃 튜토리얼
  • flutter 행사 후기
  • postgresql install in mac
  • vscode 스프링 설치
  • 딥러닝 기반 음성인식 기초
  • 플러터
  • 컴퓨터 비전
  • 머신러닝이란
  • kubeflow설치안됨
  • flutter 행사
  • 미디어파이프
  • git tutorial
  • flutter
  • python telegrambot
  • torchscript vs onnx vs tensorrt
  • speaker adaptation tts
  • postgresql 재설치
  • mediapipe translate
  • flutter conference
  • 구글 미디어파이프
  • 음성인식 튜토리얼
  • ios google places api
  • 컴퓨터 비전 책 추천
  • mediapipe
  • 컴퓨터 비전 기초

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.2
내공얌냠
TF-IDF
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.