[토크ON세미나] 딥러닝 기반 음성인식 기초 3,4,5강

공부/튜토리얼

내공얌냠 2023. 5. 9. 21:31

user 의 맥락을 이해할 때 supervision을 준다

multi-class classification

경쟁 지표 : 레이블 가중치 레이블 순위 평균 정밀도(label-weighted label-ranking average precision, lwlrap)

순서

CTC : Conectionist Temporal Classification

둘 사이 가능한 모든 alignment의 가능성을 합산하여 작용
허용된 output에 새로운 토큰(epslion) 도입
input과 같은 길이로 alignment를 진행 후 mapping 시 epslion 제거
순서중요(output을 동일하게 유지하거나 next output으로 assign)
X와 Y의 정렬이 many-to-one 함수
조건부 확률 분포
RNN 기반의 모형: time step별 확률분포, input sequence의 context를 고려하기 위해. input sequence가 fixed-size splice일 때 활용하기 좋음
(X, Y) pair dataset -> X의 input step을 따라가면서 single alignment 계산 -> validation alignment에 대해 marginalize 진행

levenshtein distance : 두 시퀀스 간의 차이를 측정하기 위한 문자열 metric