3강 Audio Classification & Tagging
user 의 맥락을 이해할 때 supervision을 준다
multi-class classification
경쟁 지표 : 레이블 가중치 레이블 순위 평균 정밀도(label-weighted label-ranking average precision, lwlrap)
순서
- audio representation
- feature extraction
- classifier
4강 CTC - Data augmentation
CTC : Conectionist Temporal Classification
- 둘 사이 가능한 모든 alignment의 가능성을 합산하여 작용
- 허용된 output에 새로운 토큰(epslion) 도입
- input과 같은 길이로 alignment를 진행 후 mapping 시 epslion 제거
- 순서중요(output을 동일하게 유지하거나 next output으로 assign)
- X와 Y의 정렬이 many-to-one 함수
- 조건부 확률 분포
- RNN 기반의 모형: time step별 확률분포, input sequence의 context를 고려하기 위해. input sequence가 fixed-size splice일 때 활용하기 좋음
- (X, Y) pair dataset -> X의 input step을 따라가면서 single alignment 계산 -> validation alignment에 대해 marginalize 진행
levenshtein distance : 두 시퀀스 간의 차이를 측정하기 위한 문자열 metric
5강 - LAS (Listen Attend Spell) - DataLoader
CTC
- valid alignment는 marginalize를 했을 때 label이 나와야 한다
- length 맞춰야 한다
- Y label의 character가 등장하지 않으면 안된다.
forward variable alpha(s) : 시간 t에서 모든 paths의 seauence 1~p까지의 확률
LAS
pyramid BiLSTM을 쌓으면 연산속도가 줄어든다
이전 decoding sequence + input을 받아서(auto-regressive) 다음 sequence를 예측
참고자료
- Korean speech recognition using deep learning
- ClovalCall
References
728x90
반응형
'공부 > 튜토리얼' 카테고리의 다른 글
java 17 mac silicon m1 설치 (0) | 2024.05.02 |
---|---|
[토크ON세미나] 딥러닝 기반 음성인식 기초 1,2강 - 딥러닝 기초 I, II | T아카데미 (0) | 2023.05.03 |
Learn Git Branching (0) | 2023.05.02 |
Dot products and duality | Chapter 9, Essence of linear algebra (0) | 2022.11.19 |
Nonsquare matrices as transformations between dimensions | Chapter 8, Essence of linear algebra (0) | 2022.11.19 |