3강 Audio Classification & Tagging user 의 맥락을 이해할 때 supervision을 준다 multi-class classification 경쟁 지표 : 레이블 가중치 레이블 순위 평균 정밀도(label-weighted label-ranking average precision, lwlrap) 순서 audio representation feature extraction classifier 4강 CTC - Data augmentation CTC : Conectionist Temporal Classification 둘 사이 가능한 모든 alignment의 가능성을 합산하여 작용 허용된 output에 새로운 토큰(epslion) 도입 input과 같은 길이로 alignment를 진행..
음성인식 기초
들어가기 전에. 1강에는 딥러닝 관련된 부분이 나오고 2강에는 코드 리뷰를 합니다. 아래 정리한 부분은 1강의 앞부분입니다. 1강 후반부의 딥러닝 부분은 생략하였습니다. 2강 코드의 경우 눈으로 보면 될 것 같아서 혼자 훑고 끝났습니다. 용어 Amplitude : 진폭(intensity) Frequency : 주파수, the number of compressed period 파동이 한 번 진동 시 걸리는 시간 frequency 1초 동안 진동 횟수 Phase : 위상(Degree of displacement) 물리 음향 intensity : 소리 진폭의 세기 frequency : 소리 떨림의 빠르기 tone-color : 소리 파동의 모양 소리 음향 loudness : 소리 크기 pitch : 음정, 소..