공부/튜토리얼

[토크ON세미나] 딥러닝 기반 음성인식 기초 1,2강 - 딥러닝 기초 I, II | T아카데미

내공얌냠 2023. 5. 3. 18:33

들어가기 전에.

1강에는 딥러닝 관련된 부분이 나오고 2강에는 코드 리뷰를 합니다. 

아래 정리한 부분은 1강의 앞부분입니다. 1강 후반부의 딥러닝 부분은 생략하였습니다.

2강 코드의 경우 눈으로 보면 될 것 같아서 혼자 훑고 끝났습니다.

 

용어

Amplitude : 진폭(intensity)

Frequency : 주파수, the number of compressed 

  • period 파동이 한 번 진동 시 걸리는 시간
  • frequency 1초 동안 진동 횟수

Phase : 위상(Degree of displacement)

물리 음향

  • intensity : 소리 진폭의 세기
  • frequency : 소리 떨림의 빠르기
  • tone-color : 소리 파동의 모양

소리 음향

  • loudness : 소리 크기
  • pitch : 음정, 소리의 높낮이/진동수
  • timbre : 음색, 소리 감각

Complex wave : 복합파

푸리에 변환

입력 신호를 주기 함수들의 합으로 분해하여 표현

  • spectrum magnitude 주파수의 강도, 복소수의 절대값
  • phase spectrum 주파수의 위상, 복소수가 가지는 phase

audio task

  • sound - classification, audio-tagging
  • speech - STT(음성인식), TTS(음성합성), STS(음성변환)

 

CNN : sampleCNN : waveform 그대로 사용 가능(phase spectrum까지 사용, phase-invariant representation)

RNN : 이전 출력을 입력으로 사용, weight sharing이 됨

LSTM : RNN의 vanishing gradient 처리

Attention : hidden state 간의 alignment를 맞출 때

 

References

https://www.youtube.com/watch?v=YiW7aOTZFQQ&list=PL9mhQYIlKEhdrYpsGk8X4qj3tQUuaDhrl&index=1 

https://www.youtube.com/watch?v=JSa1DS8xzjY&list=PL9mhQYIlKEhdrYpsGk8X4qj3tQUuaDhrl&index=2 

 

728x90
반응형