[토크ON세미나] 딥러닝 기반 음성인식 기초 3,4,5강

2023. 5. 9. 21:31· 공부/튜토리얼
목차
  1. 3강 Audio Classification & Tagging
  2. 4강 CTC - Data augmentation
  3. 5강 - LAS (Listen Attend Spell) - DataLoader
  4. References

3강 Audio Classification & Tagging

user 의 맥락을 이해할 때 supervision을 준다

multi-class classification

경쟁 지표 : 레이블 가중치 레이블 순위 평균 정밀도(label-weighted label-ranking average precision, lwlrap)

순서

  1. audio representation
  2. feature extraction
  3. classifier

 

4강 CTC - Data augmentation

CTC : Conectionist Temporal Classification

  • 둘 사이 가능한 모든 alignment의 가능성을 합산하여 작용
  • 허용된 output에 새로운 토큰(epslion) 도입
  • input과 같은 길이로 alignment를 진행 후 mapping 시 epslion 제거
  • 순서중요(output을 동일하게 유지하거나 next output으로 assign)
  • X와 Y의 정렬이 many-to-one 함수
  • 조건부 확률 분포
  • RNN 기반의 모형: time step별 확률분포, input sequence의 context를 고려하기 위해. input sequence가 fixed-size splice일 때 활용하기 좋음
  • (X, Y) pair dataset -> X의 input step을 따라가면서 single alignment 계산 -> validation alignment에 대해 marginalize 진행

levenshtein distance : 두 시퀀스 간의 차이를 측정하기 위한 문자열 metric

 

5강 - LAS (Listen Attend Spell) - DataLoader

CTC

  1. valid alignment는 marginalize를 했을 때 label이 나와야 한다
  2. length 맞춰야 한다
  3. Y label의 character가 등장하지 않으면 안된다.

forward variable alpha(s) : 시간 t에서 모든 paths의 seauence 1~p까지의 확률

LAS

pyramid BiLSTM을 쌓으면 연산속도가 줄어든다

이전 decoding sequence + input을 받아서(auto-regressive) 다음 sequence를 예측

참고자료

  • Korean speech recognition using deep learning
  • ClovalCall

 

References

https://youtu.be/inYRQdKd2dk

https://youtu.be/XAXAdH-lEKQ

https://youtu.be/gmoEgeRPOoQ

 

728x90
반응형

'공부 > 튜토리얼' 카테고리의 다른 글

Kubeflow 설치  (0) 2025.02.01
java 17 mac silicon m1 설치  (0) 2024.05.02
[토크ON세미나] 딥러닝 기반 음성인식 기초 1,2강 - 딥러닝 기초 I, II | T아카데미  (0) 2023.05.03
Learn Git Branching  (0) 2023.05.02
Dot products and duality | Chapter 9, Essence of linear algebra  (0) 2022.11.19
  1. 3강 Audio Classification & Tagging
  2. 4강 CTC - Data augmentation
  3. 5강 - LAS (Listen Attend Spell) - DataLoader
  4. References
'공부/튜토리얼' 카테고리의 다른 글
  • Kubeflow 설치
  • java 17 mac silicon m1 설치
  • [토크ON세미나] 딥러닝 기반 음성인식 기초 1,2강 - 딥러닝 기초 I, II | T아카데미
  • Learn Git Branching
내공얌냠
내공얌냠
내공냠냠
내공냠냠내공냠냠
내공얌냠
내공냠냠
내공얌냠
전체
오늘
어제
  • 분류 전체보기 (255) N
    • 개발 (113)
      • mediapipe (16)
      • insightface (5)
      • JongjuAR (3)
    • 자료구조 알고리즘 (79)
      • 코딩테스트 (64)
      • 이론 (15)
    • 공부 (54) N
      • 단행본 (8) N
      • 튜토리얼 (19)
      • 논문 (15)
      • 복기 (5)
    • 참여 (5)

블로그 메뉴

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

공지사항

인기 글

태그

  • mediapipe
  • postgresql 재설치
  • vscode 스프링 설치
  • postgresql install in mac
  • 음성인식 튜토리얼
  • 딥러닝 기반 음성인식 기초
  • 테디노트 rag 기본편
  • 머신러닝이란
  • mediapipe translate
  • ios google places api
  • flutter 행사 후기
  • python telegrambot
  • 테디노트의 랭체인을 활용한 rag 비법노트 기본편
  • 깃 튜토리얼
  • git tutorial
  • flutter
  • 컴퓨터 비전 책 추천
  • speaker adaptation tts
  • 테디노트의 랭체인을 활용한 rag 비법노트 기본편 후기
  • flutter conference
  • 구글 미디어파이프
  • 플러터
  • 컴퓨터 비전
  • google mediapipe
  • 컴퓨터 비전 기초
  • flutter 행사
  • 플러터 튜토리얼
  • 미디어파이프
  • flutter tutorial
  • 음성인식 기초

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.2
내공얌냠
[토크ON세미나] 딥러닝 기반 음성인식 기초 3,4,5강
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.