https://arxiv.org/abs/2406.09569 Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of TimeWe introduce Speech ReaLLM, a new ASR architecture that marries "decoder-only" ASR with the RNN-T to make multimodal LLM architectures capable of real-time streaming. This is the first "decoder-only" ASR architecture designed to handle continuous audio witarxi..
공부/논문
Abstract Resolution-connected generator, Resolution-wise discriminator 제안 더불어 정확성있게 high-frequency components 재생산을 위해 discriminators 안에서 discrete wavelet transform 이용 Fre-GAN은 MOS에서 Ground-truth audio와 0.03 정도의 차이만 난다. 1. Introduction autoregressive model 들은 좋은 성능을 보여주지만 느린 인퍼런스 속도 이들의 구조적 한계를 해결하기 위해 flow-based vocoders 가 제안되었다. 자연스러운 waveform을 실시간으로 생성함에도 불구하고 병렬적으로 noise sequence를 raw wavefor..
paper link: https://arxiv.org/abs/2003.08934 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-con arxiv.org Abstract input ..
Variational Inference with adversarial learning for end-to-end Text-to-Speech (VITS). Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current ..
https://arxiv.org/pdf/1311.2524.pdf Abstract simple 하고 scalable한 detection algorithm 1) bottom-up region proposal를 위해 high capacity CNN 을 적용 2) 라벨된 training data가 scarce(부족) 해서, 특정 도메인에 한정된 fine-tuning 에 따라 suprevised pre-training 을 사용 그래서 region proposal을 CNN과 함께 하기에 이름을 RCNN이라고 지었다. 1. Introduction input image받고 -> 2000 region proposals 뽑기 -- warping --> CNN features 계산 -> 각 region 분류(선형 SVM사용..
: 찾아봐야 함. Abstract residual network는 optimize 하기 쉽고, depth를 증가할 수록 accuracy 증가를 얻을 수 있다. ImageNet 데이터셋으로 152 layers로 진행(VGG Net보다 8배 많은), test set에서 3.57 % error. CIFAR-10 데이터셋으로 100과 1000 layers로도 진행 Introduction network depth는 중요한 부분이지만, vanishing/exploding gradients 문제를 가지고 있다. 이 문제는 SGD와 back propagation을 위해 converging을 시작하기 위한 레이어들끼리 있는 네트워크를 가능하게 하는 normalized initialization, intermediate ..
https://arxiv.org/abs/2206.02631 A Survey on Modern Recommendation System based on Big Data Recommendation systems have become very popular in recent years and are used in various web applications. Modern recommendation systems aim at providing users with personalized recommendations of online products or services. Various recommendation techniqu arxiv.org A Survey on Modern Recommendation Syste..
읽은 이유: Mediapipe Face Mesh 공부 논문 내용: Abstract 하나의 카메라 인풋으로 AR 어플리케이션을 위한 3D mesh 표현을 하기 위해서 end-to-end neural network-based model 을 구현 얼굴 기반의 AR 효과들을 위해 잘짜여진 468개의 정점들 vertices 이 존재. 1. Introduction facial geometry 를 예측하는 것의 문제점: aligning a facial mesh template == face alignment == face registration 보통은 각기다른 의미와 얼굴 컨투어에 의미있는 (일반적으로 68개) 의 landmarks 혹은 keypoint 로 이루어진다. 다른 접근으로 3DMM(3D morphable ..