N-gram

· 개발
N-gram : N개의 단어 묶음 n=1, unigram n=2, bi-gram n=3, tri-gram... n = 2-3 이하로 사용된다. 순서 그대로 묶었기 때문에 그 토큰 안에 순서정보가 들어가게 된다. 전처리적인 관점에서 보면 합쳐서 처리하도록 하는 방식이라고 볼 수 있다. 인접한 토큰을 묶어주는 작업을 통해서 언어 모델링에서 사용한다. 문장을 생성하는 프로그램 만든다고 가정할 경우, '나는' 에서 나머지는 완성해달라고 할 경우, 바이그램으로 묶어서 '나는'으로 시작하는 바이그램을 싹 다 가져온다. 그 다음 통계를 내고 그 결과로 문장을 완성해준다. 계속 붙여가면서 문장을 완성한다.