N-gram : N개의 단어 묶음
n=1, unigram
n=2, bi-gram
n=3, tri-gram...
n = 2-3 이하로 사용된다.
순서 그대로 묶었기 때문에 그 토큰 안에 순서정보가 들어가게 된다.
전처리적인 관점에서 보면 합쳐서 처리하도록 하는 방식이라고 볼 수 있다.
인접한 토큰을 묶어주는 작업을 통해서 언어 모델링에서 사용한다.
문장을 생성하는 프로그램 만든다고 가정할 경우, '나는' 에서 나머지는 완성해달라고 할 경우, 바이그램으로 묶어서 '나는'으로 시작하는 바이그램을 싹 다 가져온다. 그 다음 통계를 내고 그 결과로 문장을 완성해준다. 계속 붙여가면서 문장을 완성한다.
728x90
반응형
'개발' 카테고리의 다른 글
지도 비지도학습 차이 (0) | 2022.11.08 |
---|---|
머신러닝 개요 (0) | 2022.11.08 |
원핫인코딩과 워드 임베딩 (0) | 2022.11.03 |
TF-IDF (0) | 2022.11.03 |
BoW (Bag of Words) (0) | 2022.11.03 |