Abstract
Resolution-connected generator, Resolution-wise discriminator 제안
더불어 정확성있게 high-frequency components 재생산을 위해 discriminators 안에서 discrete wavelet transform 이용
Fre-GAN은 MOS에서 Ground-truth audio와 0.03 정도의 차이만 난다.
1. Introduction
autoregressive model 들은 좋은 성능을 보여주지만 느린 인퍼런스 속도
이들의 구조적 한계를 해결하기 위해 flow-based vocoders 가 제안되었다. 자연스러운 waveform을 실시간으로 생성함에도 불구하고 병렬적으로 noise sequence를 raw waveform으로 변환하는 그들의 능력에 있어서 복잡한 구조 때문에 많은 계산량이 요구된다.
다른 접근으로는 GAN이 있다.
MelGAN은 MSD(Multi-Sclae Discriminator, Average Pooling으로 조정된 waveforms의 multiple scales를 구성)를 차용했다. MSD는 연속적인 패턴을 포착하는 것과 오디오의 장기적 의존성에 강점이 있다.
Parallel WaveGAN은 multi-resolution spectrogram loss(adversarial training을 안정화하고, 생성 품질을 향상시키는 데 도움을 줌)를 제안했다.
최근에, Hifi-GAN은 MPD(Multi-Period Discriminator)를 통해 오디오의 periodic patterns을 정의하고 high-fidelity audio 를 합성하였다. 이것은 generator에 MRF(Multi-Receptive field Fusion, 병렬로 다양한 길이의 패턴을 관찰함) module을 적용함으로써 오디오 품질을 더 향상시켰다. 이 모델은 autoregressive, flow-based vocoder를 품질과 인퍼런스 속도에 모두 뛰어났다.
이러한 최근의 발전에도 불구하고 합성 음성은 여전히 정답 오디오와의 갭이 존재한다. 이런 차이는 오디오가 여러 frequencies의 복잡한 mixture로 만들어졌기 때문에 spectral artifacts(hissing noise 또는 robotic sound)를 야기시킨다.
이 논문에서 제안하는 Fre-GAN은 multiple frequency bands를 넘는 spectral 분포의 다양한 레벨을 학습하기 위해 resolution-conntected generator와 resolution-wise discriminators를 적용한다.
generator는 upsample 후 다양한 resolution들에서 multiple waveforms을 합친다. 각 waveform은 discriminators의 해당하는 resolution layer들 안에서 adversarially 하게 평가된다. discriminators의 학습을 더 유용하게 하기 위해, 우리는 discriminator의 각 resolution layer에 downsampled된 오디오를 제공한다. 이런 구조에 기반을 두고, 우리는 DWT(Discrete Wavelet Transform)을 downsampling method로 사용한다.
AP(Average Pooling)과 같은 기존의 downsampling method는 high-frequency components를 없애버리지만, DWT는 biorhogonal property 때문에 모든 정보를 지키는 것을 보장한다. AP와는 다르게, DWT는 안전하게 high-frequency contents의 손실 없이 low-frequency에서 high-frequency sub-bands 로 신호를 분해할 수 있다.
2. Fre-GAN
2.1. Resolution-connected Generator
generator는 input으로 mel-spectrogram을 받고 transposed convolution blocks을 통해 upsample을 한다. output sequence의 temporal resolution이 raw waveform과 매치될 때까지. transposed convolution blocks는 HiFi-GAN에서 제안된 MRF 모듈과 leaky-relu activation에 따른 transposed convolutional layer로 구성된다.
StyleGan2에 영감을 받아, skip-connection을 차용하며, RCG(Resolution-Connected Generator)라고 부른다.
RCG는 upsample하고 여러 resolutions에 해당하는 top-K waveform outputs 을 합한다.
lower scale waveforms을 upsample 하기 위해 NN(Nearest Neighbor) upsampler(transposed convolutions로 인해 생기는 tonal artifacts를 완화한다고 증명됨)를 사용한다.
더불어, 우리는 input mel-spectrogram을 각 top-K transposed convolution block에 직접적으로 조정한다. 이것은 multiple waveforms가 input mel-spectrogram과 함께 구성되는 것을 허락한다. 여기서는 K를 4로 지정한다.
RCG 구조의 장점
1. 다양한 resolutions에서 multiple waveforms를 명시적으로 합산함으로써 spectral distributions의 다양한 레벨을 확보한다.
이것은 multiple frequency bands를 건너서 acoustic properties를 효과적으로 학습하도록 모델을 부추긴다.
2. progressive learning을 통해 학습된다. RCG의 학습은 low resolution에 집중됨으로써 시작되고, 점차적으로 higher resolutions에 집중한다.
이것은 한번에 모든 크기들을 학습하는 것 대신, 모델이 처음 쉬운 coarse structure를 알아내고, 그 이후 놀랍도록 세세한 디테일들을 학습하는 것에 집중하도록 바꾼다. 점차적으로 resolution을 늘려가면서, 우리는 속도를 내고 대단히 안정적인 adversarial training을 할 수 있다.
2.2. Resolution-wise Discriminators
Fre-GAN은 두 가지 discriminators를 사용합니다.
Resolution-wise MPD(RPD)와 Resolution-wise MSD(RSD) 입니다. (Hifi-GAN으로부터 얻은 구조)
RPD는 다섯 개의 sub-discriminators로 구성되며 각각은 겹치는 것을 피하기 위해 입력 오디오의 특정한 주기적인 구간을 받습니다.(p : 2,3,5,7,11)
입력 오디오의 길이 T는 처음 height T/p 와 width p의 2d data로 reshape 됩니다.그리고 2d convolutions에 wjrdydehlqslek.
반면에, RSD는 다양한 입력 크기로 구성된 3개의 sub-discriminators로 구성됩니다.
raw audio, 2X downsampled audio, 4X downsampled audio.
RPD는 오디오의 주기적인 패턴을 포착합니다.
RSD는 오디오의 연속적인 패턴을 관찰합니다.
RCG의 top-K waveforms와 매칭시키기 위해 각 sub-discriminator에서 convolution layers의 resolutions를 세팅함으로, 우리는 해당하는 resolution의 waveform을 평가하기 위한 각 sub-discriminator에서 특정한 레이어를 조장한다. 이 resolution-wise adversarial evalution은 RCG가 여러 크기의 input mel-spectrogram 으로부터 맵핑을 학습하는 것을 발생시킨다. 더불어, 각 sub-discriminator의 해당하는 resolution layer에 downsampled audio를 제공합니다.
이러한 residual connection은 discriminators의 학습을 유용하게 하고 샘플 품질을 향상시킵니다. 이러한 구조를 기반으로, 우리는 DWT를 사용하여 어떤 정보의 유실없이 오디오를 downsample 합니다.
2.3. Discrete Wavelet Transform
MSD를 사용한 이전 연구에서, raw audio를 downsample 하기 위해 AP를 사용하였지만, AP는 sampling theorem을 무시합니다. 그리고 high-frequency contents는 aliased 되고 invalid 됩니다. high-frequency loss를 완화하기 위해, AP를 DWT로 재배치하였습니다.
1d DWT에서, 신호는 두 개의 필터들에 의해 감싸집니다: low-pass filter (g) 와 high-pass filter (h)
low-frequency, high-frequency compoentns를 나타내는 두 개의 2X downsampled signals을 줍니다.
ylow[n]: g의 결과, yhigh[n]: h의 결과, n: levels of DWT, k: signal x의 index
DWT의 biorthogonal property 때문에 신호는 정보 손실 없이 안전하게 분해(deconstructed) 될 수 있습니다.
각 레벨의 DWT 이후, 모든 frequency sub-bands는 channel-wise concatenated 되고 convolution layers로 전달됩니다.
구현을 위해 Daubechies1 wavelet을 사용했습니다.
2.4. Training Objectives
Fre-GAN을 학습시키기 위하여, 우리는 학습 안정성 때문에 least-squares GAN objective를 사용했습니다.
x: ground-truth audio
x hat: generated audio
Dp: RPD
Ds: RSD
PI m: m-level DWT
lambda fm = 2, lambda mel = 45
L fm: feature matching loss
L mel: mel-spectrogram loss
T: discriminator에 있는 레이어들의 개수
D k i: k번째 sub-discriminator의 i번째 레이어 피쳐맵
N i: 각 레이어의 units의 개수
psi: raw audio를 해당하는 mel-spectrogram으로 변환하기 위한 STFT 함수
feature matching loss:
실제와 생성된 오디오의 discriminator feature map 사이의 L1 distance를 최소화합니다.
학습 효율을 향상시키기 위해 auxiliary loss를 사용
mel-spectrogram loss:
샘플 품질과 학습 안정성을 더 향상시키기 위해 추가,
합성 오디오와 ground-truth audio의 mel-spctrogram의 L1 distance를 최소화하기 위한 restruction loss
실제적인 결과를 생성하는데 도움을 주고 이전 stages로부터 aderrsarial training process를 안정화시키기 위하여 GAN의 학습에 적용
3. Experimental Results
LJSpeech dataset, sampling rate: 22,050 Hz, 13,100 audio samples, single English speaker
train 80%, validation 10%, test 10% set 으로 분할
mixture of logistics WaveNet, WaveGlow, Hifi-GAN과 비교
모든 모델은 3100 에폭만큼 학습됨
HiFi-GAN과 유사하게 generator의 두 가지 변주를 기반으로 실험을 지휘했다: 같은 discriminator configuration으로 V1, V2.
Hifi-GAN과 유사한 변주이지만,
transposed convolutions의 kernal size: [16, 8, 4, 4, 4]
MRF의 dilation rates: [[1,1],[3,1],[5,1],[7,1] x 3]
80 bands mel-spectrogram -> 1024 window size, 256 hop size, 1024 points of Fourier transform
AdamW optimizer (beta1 = 0.8, beta2 = 0.999)
batch size: 16
learning rate schedule은 [12] 를 따라함
3.1. Audio Quality and Inference Speed
subjective test를 위해 5-scale MOS test,
objective quality evalution 로써 MCD, RMSE, FDSD 사용
합성된 발화음성들 50개는 subjective, 200개는 objective evaluation으로 사용되었다.
Intel Xeon Gold 6148 2.40 GHz CPU와 single NVIDIA Titan Xp GPU 사용
Fre-GAN은 다른 모델들을 능가한 품질이다. 특히, Fre-GAN V1은 유사함을 나타냈는데, 실제 음성과 0.03 MOS 차이만 존재했다.
합성 속도로는 HiFi-GAN 만큼 가깝게 빨랐고, WaveNet과 WaveGlow보다 빨랐다.
pixel-wise 차이도 조사하였는데 mel-spectrogram의 에러가 높게 줄어든 것을 확인할 수 있었다. 이것은 Fre-GAN이 input mel-spectrogram에 해당하는 frequency-consistent audio를 생성한다는 것을 가리킨다.
3.2. Ablation Study
Fre-GAN V2가 generator로 사용되고 각 모델은 500k steps로 학습되었다.
DWT 대신 AP로 바꿨을 때 확연하게 MOS가 떨어졌다.
RPD와 RSD 대신 MPD와 MSD를 사용했을 때는 비교적 작지만 인지가능한 감소를 보여준다.
RCG 구조를 삭제했을 때 MCD에서 최저의 성적을 보여준다.
mel-spectrogram condition 의 부재와 NN sampler를 transposed convolution으로 변경한 것 또한 metalic noise와 품질 저하를 일으켰다.
RCG와 DWT의 장점을 증명한다. RCG의 이점은 progressive learning으로부터이다. 이것을 증명하기 위하여 다양한 resolutions(S0, S1, S2, S3 Hz)에서의 multiple waveforms의 상대적 중요성을 정량화했다. 최종 오디오의 그들의 분포를 측정함으로써
100%로 합산되게 학습 에폭의 방법으로써 오디오 샘플들의 표준 편차를 계산하고 값을 normalized 했다.
보여지듯이, RCG 는 초기에는 low-resolution 을 학습하는 것에 집중해있다가 천천히 higher resolution으로 주의를 이동한다.
우리가 DWT를 AP로 변경했을 때, RCG는 target resolution을 전체적으로 이용하는 것을 실패했다.이것은 DWT를 AP로 재배치하는 것은 high-frequency components를 지워버리는 것을 암시하고, 그러므로 RCG은 high-frequency details를 학습하기 위한 보상들이 부족하게 된다.
4. Conclusions
이 논문에서 손실없는 downsampling method가 있는 네트워크 구조를 제안했다.
추후에는, synthesized speech의 품질을 향상시키기 위해 end-to-end TTS 시스템에 우리 제안 방법을 적용할 것이다.
References
https://arxiv.org/abs/2106.02297