
以下で作ったアプリをフルボイス化したい。
ここ最近、TTSについていくつか確認していたがTsukasa_Speechが良さげだったので挑戦してみる。
基本的にはスクリプトを書いて作業を自動化していきます。
- ゲームのストーリーが書かれたファイルからセリフだけを抽出 → GPT先生お願いします
- Tsukasa_SpeechのGradioのAPIで音声合成をさせたい → GPT先生お願いします
- waveファイルが生成されるのでmp3にしたい → GPT先生お願いします
ついでなのでゲームシステム側もちょっと修正。
- 喋るからにはリップシンクしないと変。 → GPT先生お願いします
- 特に目的はないけどReactやThreeJSなどを最新化
- プレイ画面の色合いを見直す(下図参照)
こんな感じ。
ゲーム自体はこちらでプレイできます。
特に推論するときのパラメータはいじってはないので努力が足りないかもですが、もちろん音声について満点の出来というわけではないです。
漢字の読み方を間違える
固有名詞は難しいかなとは思いますが。
- 一目惚れ → ひとめほれ
- 碧川(人名)→ へきかわ
- 漁る → 何と呼んでたか忘れましたが違う読み方してた
などなど。困ったところは平仮名などに変えて対処。
たまに発音、イントネーションが変
たまにロボっぽさがでます。
感情表現が難しいことがある
良い感じの「えぇぇ〜!?(驚き)」ができない。
最近?だとニュアンスをプロンプトで伝えるTTSもあるので、今後そういったもので日本語に強いものがでるとやりやすくなるかも。
(Tsukasa_SpeechにもExperimentalとしてはある)
個人で遊ぶ分には十分楽しい。
Views: 0