완전 독립적일 수 있도록 원핫인코딩을 한다.
그러나 너무 길고 희소성이 높다. 유사한 것들을 모으고 싶다.
이런 사항들을 해결하기 위해 word2vec, GloVe 등의 방법이 있다.
원핫벡터는 고차원이고 표현은 희소성이 있고 학습을 하지 않으며 0 또는 1로 값이 구성되어있고,
임베딩 벡터는 저차원이고 표현이 밀집되어있으며 학습되어있고 실수표현이다.
728x90
반응형
'개발' 카테고리의 다른 글
머신러닝 개요 (0) | 2022.11.08 |
---|---|
N-gram (0) | 2022.11.03 |
TF-IDF (0) | 2022.11.03 |
BoW (Bag of Words) (0) | 2022.11.03 |
크롤링 중 데이터를 받아오지 못할 때. (0) | 2022.10.31 |