https://arxiv.org/abs/2406.09569
arXiv:2406.09569v1 [cs.CL] 13 Jun 2024
Abstract
- Speech ReaLLM("real-time LLM") : the first "decoder-only" ASR architecture with the RNN-T to make mlutimodal LLM architectures capable of real-time streaming
- user prompt 의 마지막에만 response 생성하는 것 대신, 실시간으로 input token 을 매번 받은 이후에 생성
- Librispeech "test," 에서 80M Speech ReaLLM 은 WERs 3.0%, (realtime 에서 external lm or auxiliary loss 없이) 7.4% 확보
- pre-trained 7B LLM fine-tune 가능
1. Introduction
- 현재의 LLMs 문제로는 turn-by-turn 방식. 사용자가 prompt 를 치고 엔터를 누르거나 끝나는 지점을 위해 길게 멈춰야 시작함. reactive 하다
- prompt 의 마지막에서 생성을 시작하는 게 아니라, 모든 하나의 input token 을 실시간으로 받은 이후에 "response" 즉시 생성
- 이렇게 되면 대부분의 시간에서 빈 string 을 내보내게 되지만, 적절할 때 non-empty 하게 내보냄
- non-streaming asr models 와 달리, 처음에 전체 발화를 볼 필요가 없고, 음성은 청크 단위로 각 시간에 따라 llm 의 generation loops 를 끝마치게 되어 스트리밍이 실현됨
- RNN-T와 streaming variants of Attention-Encoder-Decoder (AED) models 는 복잡한 손실함수들과 학습 알고리즘 필요
2. "Decoder-Only" Streaming ASR
- "Decoder-only"는 encoder 안에 cross-attention 이 없는 것
“Decoder-only” is in quotes because this term has come to denote models without cross-attention into an encoder. Like most MM-LLMs, Speech ReaLLM surely has an encoder, just not via cross-attention. - Speech LLMs 로부터 decoder 를 물려받았고, 이것은 중심에 Llama-2 type Transformer decoder layers 와 multi-modal encoder (speech input -> sequence of embedding vectors used in place of/mixed with text embeddings)의 stack 으로 구성.
- realtime asr 을 위해서 streaming encoder 가 필요
- RNN-T 로부터 BLANK token 을 물려받고, 이것은 먼저 더 많은 speech input 입력 없이는 더 이상 토큰 생성할 수 없음을 나타냄내기 위해 방출하는 토큰
- Speech ReaLLM's operation
시간에 따라 speech input one embedding vector e 처리.
real-time setting 에서는 2번째 라인이 다음 임베딩 베터 생성을 위해 충분히 추가적인 오디오 데이터를 받을 때까지 block
여기서는 input embedding 은 240ms 오디오 마다 생성됨
각 시간에 speech embedding 이 받아지면, LLM history h 에 더해짐
기존 non-real-time LLM decoding 과 달리, 즉시 텍스트 생성을 실행하며 BLANK token 이 예상될 때까지
새로운 단어들이 받아지지 않으면, 모델은 BLANK를 예측하고 루프에서 바로 빠져나옴
5번째 라인은 실시간에서 연속적인 오디오 스트림의 streaming transcription 을 위한 것이지만
오디오 파일들의 디코딩을 위해서는 모델이 마지막에 추가적인 trailing tokens 를 방출하도록 허락하면 안된다.
speech input 의 끝은 EOS embedding 으로써 디코더와 소통함
3. Training The Speech ReaLLM
- "alignment-teacher" 로써 external CTC model 에서 고정된 정렬을 사용함으로써 loss 구현
- 처음에 label emissions 을 반 초 정도 연기함으로써 모델이 제한된 future context 를 볼 기회를 주고하 하였으나, 스트리밍 인코더에서 음향적으로 future context 를 제공하는 게 더 효율적이라고 밝혀졌다. - figure 2
- training target sequence 를 구성하기 위해 BLANK symbol (denoted as _) 를 레이블 시퀀스로 변경 - figure 3
- LLM decoder 의 input 에서 각 word label 를 임베딩함으로써 embedding sequence 를 도출 - figure 4
f1, f2, ... 는 encoder frames. - target sequence 와 끼워넣어진 speech/word-token embeddings 과 함께 end-to-end 하게 CE loss 로 모델 학습 가능
- figure 5 (a), ReaLLM, speech 와 text embeddings 가 순서대로 끼워넣어져 있어서 time index t, labels index k 가 독립적인 변수
- figure 5 (b), Speech LLM, speech embeddings 는 text embeddings 보다 앞서 있어서 모든 음성이 첫번째 토큰보다 존재해야해서 방출될 수 있어 non-streaming.
- figure 5 (c), RNN-T 또한 독립적인 time, label indices t, k 를 가지고 있지만 ReaLLM 이 alignment teacher 로부터 얻은 정확히 하나의 alignment 를 추구하는 것과 달리, RNN-T는 모든 가능한 정렬을 가정함
4. Experiments and Results
- Dataset : Librispeech benchmark
- System parameters :
- baselines : non-streaming Speech LLM(Speech-LLaMA, ..) RNN-T with joint network
- 80M parameters, trained from scratch for up to 900 epochs, ...
- same Streaming Conformer encoder
- the encoder is follwed by a Llama-2 decoder stack
- 80M-parameter Speech ReaLLM has WERs of 3.0 and 7.4% for test-clean and other
- Results :
- Speech ReaLLM is a viable new ASR architecture - figure 6
- A "decoder-only" LM is able to learn and reproduce the flow of time. - figure 7
- a 7B Llama model cna be fine-tuned to learn the ReaLLM behavior - figure 6
- Speech ReaLLM performs consistently across lengths - figure 9
- 80M Speech ReaLLM runs in real time on dev server - figure 10
728x90
반응형
'공부 > 논문' 카테고리의 다른 글
A Study on the Efficacy of model pre-training in Developing Neural Text-to-speech System (0) | 2024.12.09 |
---|---|
Adapting TTS models For New Speakers using Transfer Learning (0) | 2024.12.04 |
Fre-GAN: Adversarial Frequency-consistent Audio Synthesis (0) | 2023.06.02 |
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (0) | 2023.05.24 |
VITS (0) | 2023.01.06 |