[토크ON세미나] 딥러닝 기반 음성인식 기초 1,2강 - 딥러닝 기초 I, II | T아카데미

2023. 5. 3. 18:33· 공부/튜토리얼
목차
  1. 용어
  2. 물리 음향
  3. 소리 음향
  4. 푸리에 변환
  5. audio task
  6.  
  7. References

들어가기 전에.

1강에는 딥러닝 관련된 부분이 나오고 2강에는 코드 리뷰를 합니다. 

아래 정리한 부분은 1강의 앞부분입니다. 1강 후반부의 딥러닝 부분은 생략하였습니다.

2강 코드의 경우 눈으로 보면 될 것 같아서 혼자 훑고 끝났습니다.

 

용어

Amplitude : 진폭(intensity)

Frequency : 주파수, the number of compressed 

  • period 파동이 한 번 진동 시 걸리는 시간
  • frequency 1초 동안 진동 횟수

Phase : 위상(Degree of displacement)

물리 음향

  • intensity : 소리 진폭의 세기
  • frequency : 소리 떨림의 빠르기
  • tone-color : 소리 파동의 모양

소리 음향

  • loudness : 소리 크기
  • pitch : 음정, 소리의 높낮이/진동수
  • timbre : 음색, 소리 감각

Complex wave : 복합파

푸리에 변환

입력 신호를 주기 함수들의 합으로 분해하여 표현

  • spectrum magnitude 주파수의 강도, 복소수의 절대값
  • phase spectrum 주파수의 위상, 복소수가 가지는 phase

audio task

  • sound - classification, audio-tagging
  • speech - STT(음성인식), TTS(음성합성), STS(음성변환)

 

CNN : sampleCNN : waveform 그대로 사용 가능(phase spectrum까지 사용, phase-invariant representation)

RNN : 이전 출력을 입력으로 사용, weight sharing이 됨

LSTM : RNN의 vanishing gradient 처리

Attention : hidden state 간의 alignment를 맞출 때

 

References

https://www.youtube.com/watch?v=YiW7aOTZFQQ&list=PL9mhQYIlKEhdrYpsGk8X4qj3tQUuaDhrl&index=1 

https://www.youtube.com/watch?v=JSa1DS8xzjY&list=PL9mhQYIlKEhdrYpsGk8X4qj3tQUuaDhrl&index=2 

 

728x90
반응형

'공부 > 튜토리얼' 카테고리의 다른 글

java 17 mac silicon m1 설치  (0) 2024.05.02
[토크ON세미나] 딥러닝 기반 음성인식 기초 3,4,5강  (0) 2023.05.09
Learn Git Branching  (0) 2023.05.02
Dot products and duality | Chapter 9, Essence of linear algebra  (0) 2022.11.19
Nonsquare matrices as transformations between dimensions | Chapter 8, Essence of linear algebra  (0) 2022.11.19
  1. 용어
  2. 물리 음향
  3. 소리 음향
  4. 푸리에 변환
  5. audio task
  6.  
  7. References
'공부/튜토리얼' 카테고리의 다른 글
  • java 17 mac silicon m1 설치
  • [토크ON세미나] 딥러닝 기반 음성인식 기초 3,4,5강
  • Learn Git Branching
  • Dot products and duality | Chapter 9, Essence of linear algebra
내공얌냠
내공얌냠
내공냠냠
내공냠냠내공냠냠
내공얌냠
내공냠냠
내공얌냠
전체
오늘
어제
  • 분류 전체보기 (254)
    • 개발 (113)
      • mediapipe (16)
      • insightface (5)
      • JongjuAR (3)
    • 자료구조 알고리즘 (79)
      • 코딩테스트 (64)
      • 이론 (15)
    • 공부 (7)
      • 단행본 (7)
      • 튜토리얼 (19)
      • 논문 (15)
      • 복기 (5)
    • 참여 (5)

블로그 메뉴

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

공지사항

인기 글

태그

  • postgresql 재설치
  • 미디어파이프
  • 구글 미디어파이프
  • postgresql install in mac
  • 깃 튜토리얼
  • kubeflow설치안됨
  • torchscript vs onnx vs tensorrt
  • flutter conference
  • vscode 스프링 설치
  • 컴퓨터 비전 기초
  • 딥러닝 기반 음성인식 기초
  • flutter 행사 후기
  • 음성인식 기초
  • 음성인식 튜토리얼
  • flutter tutorial
  • flutter
  • speaker adaptation tts
  • google mediapipe
  • mediapipe
  • git tutorial
  • 컴퓨터 비전
  • kubeflow설치가이드
  • mediapipe translate
  • 플러터
  • flutter 행사
  • 플러터 튜토리얼
  • python telegrambot
  • ios google places api
  • 컴퓨터 비전 책 추천
  • 머신러닝이란

최근 댓글

최근 글

hELLO · Designed By 정상우.v4.2.2
내공얌냠
[토크ON세미나] 딥러닝 기반 음성인식 기초 1,2강 - 딥러닝 기초 I, II | T아카데미
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.