TL;DR
Neural Vocoderはメルスペクトログラム等の音響特徴量から波形を復元するモジュール
従来の時間領域型 (HiFi‑GANなど) はエイリアシングを避けられず高F0などの条件で大きく劣化
Wavehaxは時間周波数領域でConv2Dにより処理しiSTFTで合成することで、この問題を根本的に回避
Harmonic Priorにより周期情報を明示的に与えるため1Mパラメータ未満でも高品質
JVSコーパスによる評価で、学習範囲外の高F0を含む音声でも従来手法と比べて大幅な改善を確認
本記事ではNeural Vocoderとは何かから、従来手法の問題点・Waveh…
Source link
Views: 0