공부

· 공부
개요 등산을 해서 정상에 도착하려고 한다. 어디서 출발하는지에 따라서 보다 쉽게 혹은 어렵게 도착할 수도 있다. 어디서 출발하는지를 정해주는 게 가중치 초기화라고 보면 된다. 설명 가중치를 초기화한다. Glorot initialization 라고도 부른다. 이전 노드와 다음 노드의 개수에 의존하는 방법이다. 비선형함수(ex. sigmoid, tanh)에서 효과적인 결과를 보여주나, ReLU함수에서 사용 시 출력 값이 0으로 수렴하게 되는 현상을 확인 할 수 있다. 사용 torch.nn.init.xavier_uniform_(linear1.weight) References https://supermemi.tistory.com/entry/CNN-%EA%B0%80%EC%A4%91%EC%B9%98-%EC%B4%8..
· 공부
설명 일정 에폭에 도달하기 전까지 learning rate을 점차적으로 증가시킨다. 일정 에폭에 도달하면, 정해놓은 learning rate policy에 따라 동작하도록 한다. 설치 !pip install warmup-scheduler 사용 import torch from torch.optim.lr_scheduler import StepLR, ExponentialLR from torch.optim.sgd import SGD from warmup_scheduler import GradualWarmupScheduler if __name__ == '__main__': model = [torch.nn.Parameter(torch.randn(2, 2, requires_grad=True))] optim = SGD..
3강 Audio Classification & Tagging user 의 맥락을 이해할 때 supervision을 준다 multi-class classification 경쟁 지표 : 레이블 가중치 레이블 순위 평균 정밀도(label-weighted label-ranking average precision, lwlrap) 순서 audio representation feature extraction classifier 4강 CTC - Data augmentation CTC : Conectionist Temporal Classification 둘 사이 가능한 모든 alignment의 가능성을 합산하여 작용 허용된 output에 새로운 토큰(epslion) 도입 input과 같은 길이로 alignment를 진행..
들어가기 전에. 1강에는 딥러닝 관련된 부분이 나오고 2강에는 코드 리뷰를 합니다. 아래 정리한 부분은 1강의 앞부분입니다. 1강 후반부의 딥러닝 부분은 생략하였습니다. 2강 코드의 경우 눈으로 보면 될 것 같아서 혼자 훑고 끝났습니다. 용어 Amplitude : 진폭(intensity) Frequency : 주파수, the number of compressed period 파동이 한 번 진동 시 걸리는 시간 frequency 1초 동안 진동 횟수 Phase : 위상(Degree of displacement) 물리 음향 intensity : 소리 진폭의 세기 frequency : 소리 떨림의 빠르기 tone-color : 소리 파동의 모양 소리 음향 loudness : 소리 크기 pitch : 음정, 소..
한국어: https://learngitbranching.js.org/?locale=ko Learn Git Branching An interactive Git visualization tool to educate and challenge! learngitbranching.js.org 영어: https://learngitbranching.js.org Learn Git Branching An interactive Git visualization tool to educate and challenge! learngitbranching.js.org 해결하는 것을 유튜브에 업로드하였습니다. https://youtu.be/NnQuNYidwrI https://youtu.be/yU3dKVSZbrI https://youtu..
Variational Inference with adversarial learning for end-to-end Text-to-Speech (VITS). Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current ..
https://arxiv.org/pdf/1311.2524.pdf Abstract simple 하고 scalable한 detection algorithm 1) bottom-up region proposal를 위해 high capacity CNN 을 적용 2) 라벨된 training data가 scarce(부족) 해서, 특정 도메인에 한정된 fine-tuning 에 따라 suprevised pre-training 을 사용 그래서 region proposal을 CNN과 함께 하기에 이름을 RCNN이라고 지었다. 1. Introduction input image받고 -> 2000 region proposals 뽑기 -- warping --> CNN features 계산 -> 각 region 분류(선형 SVM사용..
: 찾아봐야 함. Abstract residual network는 optimize 하기 쉽고, depth를 증가할 수록 accuracy 증가를 얻을 수 있다. ImageNet 데이터셋으로 152 layers로 진행(VGG Net보다 8배 많은), test set에서 3.57 % error. CIFAR-10 데이터셋으로 100과 1000 layers로도 진행 Introduction network depth는 중요한 부분이지만, vanishing/exploding gradients 문제를 가지고 있다. 이 문제는 SGD와 back propagation을 위해 converging을 시작하기 위한 레이어들끼리 있는 네트워크를 가능하게 하는 normalized initialization, intermediate ..
내공얌냠
'공부' 카테고리의 글 목록 (2 Page)