관심 있는 부분만 요약했습니다..https://arxiv.org/pdf/2303.03926conditional language modeling task with neural codec codesAR language model 를 사용한 paired phoneme sequences 로부터 첫번째 Encodec quantizer 로 audio codec 을 만들고, 그 코덱들을 나머지 quantizer 로 병렬로 NAR model 을 이용해서 코드를 생성한다multilingual autoregressive codec LM, multilingual non-autoregressive codec LM 이 acoustic tokens 를 서로 다르게 세부적으로 생성acoustic quantizer, vall-e 에..
정말 정말 풀기 싫은 레벨3 를 풀었습니다레벨 2를 다 풀고 하면 되지 않나, 문제도 길고 조건이 많잖아ㅠ이 마인드로 하다가 고득점 kit 에 더이상 풀 레벨2 가 없어서 눈물을 머금고 도전,,,이것저것 해보다가 한시간 좀 넘게 걸렸는데 할만한데 뭔가 다른 사람 풀이 보니까 다들 잘혀~,,,,,좀 fansy 하게 풀지를 못했고,, 코드 좀 길긴해..그래도 중간중간 chatgpt 키고 싶은 마음 꾹 참으면서 일요일 아침을 잘 보냈네요..https://school.programmers.co.kr/learn/courses/30/lessons/42579 프로그래머스SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프programmers.co.kr 배운 것그..
문제 설명초 단위로 기록된 주식가격이 담긴 배열 prices가 매개변수로 주어질 때, 가격이 떨어지지 않은 기간은 몇 초인지를 return 하도록 solution 함수를 완성하세요.제한사항prices의 각 가격은 1 이상 10,000 이하인 자연수입니다.prices의 길이는 2 이상 100,000 이하입니다.입출력 예pricesreturn[1, 2, 3, 2, 3][4, 3, 1, 1, 0]입출력 예 설명1초 시점의 ₩1은 끝까지 가격이 떨어지지 않았습니다.2초 시점의 ₩2은 끝까지 가격이 떨어지지 않았습니다.3초 시점의 ₩3은 1초뒤에 가격이 떨어집니다. 따라서 1초간 가격이 떨어지지 않은 것으로 봅니다.4초 시점의 ₩2은 1초간 가격이 떨어지지 않았습니다.5초 시점의 ₩3은 0초간 가격이 떨어지지 않..
사실 kubeflow 설치를 1월 중순에 시도했습니다. 안되서 2월 초에 새로운 마음으로 다시 시도하였습니다. 지금 생각해보니 도커 권한이 없어서 이미지를 못받아와서 모든 것들이 어그러진 것 같더군요,, 여튼 제대로 성공하여 바로 글로 작성해봅니다 ㅎㅎUbuntu 22.04 LTS 에서 실행하였습니다. 쿠버네티스는 1.32 버전을 사용합니다. 또한 minikube 를 사용합니다.1. install mysql, install docker2. install kuberneteshttps://www.whatwant.com/entry/Kubeflow-in-Kuberneteshttps://kubernetes.io/docs/tasks/tools/install-kubectl-linux/ Install and Set U..
https://arxiv.org/abs/1609.03499 WaveNet: A Generative Model for Raw AudioThis paper introduces WaveNet, a deep neural network for generating raw audio waveforms. The model is fully probabilistic and autoregressive, with the predictive distribution for each audio sample conditioned on all previous ones; nonetheless we show that arxiv.orgv1 2016, v2 2016IntroductionJoint probabilities 를 pixel/wor..
https://arxiv.org/abs/2006.04558 FastSpeech 2: Fast and High-Quality End-to-End Text to SpeechNon-autoregressive text to speech (TTS) models such as FastSpeech can synthesize speech significantly faster than previous autoregressive models with comparable quality. The training of FastSpeech model relies on an autoregressive teacher model for duratioarxiv.orgv1 2020, v8 2022ICLR 2021Introduction기존..
https://arxiv.org/abs/2404.04645 HyperTTS: Parameter Efficient Adaptation in Text to Speech using HypernetworksNeural speech synthesis, or text-to-speech (TTS), aims to transform a signal from the text domain to the speech domain. While developing TTS architectures that train and test on the same set of speakers has seen significant improvements, out-of-domain speaarxiv.orgContributionDynamic Ad..
ICASSP 2022https://arxiv.org/abs/2110.03857IntroductionIn research, the text content of training and test data are often highly similar and in the same text domain. For many real-world applications, TTS systems need to deal with text input with arbitrary content across a wide range of domains.specific target speakers 로부터의 데이터를 증가시키는 것 : costly or impractical → “non-target” speakers 의 데이터를 사용하는 것..