공부/튜토리얼

[토크ON세미나] 딥러닝 기반 음성인식 기초 3,4,5강

내공얌냠 2023. 5. 9. 21:31

3강 Audio Classification & Tagging

user 의 맥락을 이해할 때 supervision을 준다

multi-class classification

경쟁 지표 : 레이블 가중치 레이블 순위 평균 정밀도(label-weighted label-ranking average precision, lwlrap)

순서

  1. audio representation
  2. feature extraction
  3. classifier

 

4강 CTC - Data augmentation

CTC : Conectionist Temporal Classification

  • 둘 사이 가능한 모든 alignment의 가능성을 합산하여 작용
  • 허용된 output에 새로운 토큰(epslion) 도입
  • input과 같은 길이로 alignment를 진행 후 mapping 시 epslion 제거
  • 순서중요(output을 동일하게 유지하거나 next output으로 assign)
  • X와 Y의 정렬이 many-to-one 함수
  • 조건부 확률 분포
  • RNN 기반의 모형: time step별 확률분포, input sequence의 context를 고려하기 위해. input sequence가 fixed-size splice일 때 활용하기 좋음
  • (X, Y) pair dataset -> X의 input step을 따라가면서 single alignment 계산 -> validation alignment에 대해 marginalize 진행

levenshtein distance : 두 시퀀스 간의 차이를 측정하기 위한 문자열 metric

 

5강 - LAS (Listen Attend Spell) - DataLoader

CTC

  1. valid alignment는 marginalize를 했을 때 label이 나와야 한다
  2. length 맞춰야 한다
  3. Y label의 character가 등장하지 않으면 안된다.

forward variable alpha(s) : 시간 t에서 모든 paths의 seauence 1~p까지의 확률

LAS

pyramid BiLSTM을 쌓으면 연산속도가 줄어든다

이전 decoding sequence + input을 받아서(auto-regressive) 다음 sequence를 예측

참고자료

  • Korean speech recognition using deep learning
  • ClovalCall

 

References

https://youtu.be/inYRQdKd2dk

https://youtu.be/XAXAdH-lEKQ

https://youtu.be/gmoEgeRPOoQ

 

728x90
반응형