문서 간 유사도를 구하는 세 가지 방법이 있다. 다른 방법들도 많지만 이해하기 쉬운 세 가지만 찾아보았다.
설명이 잘 나온 블로그가 아래 있어서 기록.
1) 유클리드 유사도
https://heytech.tistory.com/357
[NLP] 문서 유사도 분석: (2) 유클리디안 거리(Euclidean Distance)
📚 목차 1. 유클리드 거리 개념 2. 유클리드 거리 실습 1. 유클리드 거리 개념 수학적 관점 접근 유클리드 거리(Euclidean Distance)는 두 점 사이의 거리를 계산하는 기법입니다. 두 점 \(p\)와 \(q\)가 각
heytech.tistory.com
2) 코사인 유사도
https://heytech.tistory.com/356
[NLP] 문서 유사도 분석: (1) 코사인 유사도(Cosine Similarity)
📚 목차 1. 코사인 유사도 개념 2. 코사인 유사도 실습 1. 코사인 유사도 개념 코사인 유사도(Cosine Similarity)란 두 벡터 사이의 각도를 계산하여 두 벡터가 얼마나 유사한지 측정하는 척도입니다.
heytech.tistory.com
3) 자카드 유사도
https://heytech.tistory.com/358
[NLP] 문서 유사도 분석: (3) 자카드 유사도(Jaccard Similarity)
📚 목차 1. 자카드 유사도 개념 2. 자카드 유사고 실습 1. 자카드 유사도 개념 자카드 유사도(Jaccard Similarity)는 \(2\)개의 집합 \(A\), \(B\)가 있을 때 두 집합의 합집합 중 교집합의 비율입니다. 즉,
heytech.tistory.com
'개발' 카테고리의 다른 글
선형패턴화 (0) | 2022.11.21 |
---|---|
퍼셉트론은 선형분류기, 다층퍼셉트론은 비선형분류기 (0) | 2022.11.21 |
CountVectorizer 를 이용해서 문서에 나온 단어 빈도수 뽑아보기 (0) | 2022.11.19 |
2022.11.17 특강 (0) | 2022.11.17 |
텍스트 마이닝 총정리 (0) | 2022.11.16 |