ホームニューステックニュースVOICEVOX をインストールして HTTP API を使う #JavaScript - Qiita

VOICEVOX をインストールして HTTP API を使う #JavaScript – Qiita

By インモビ運営局

2025年7月13日

0

6

VOICEVOX をインストールして HTTP API を使う #JavaScript - Qiita

「無料で使える中品質なテキスト読み上げ・歌声合成ソフトウェア」VOICEVOX をインストールし、HTTP API を使用して音声合成をする方法を紹介する。
本記事では、歌声合成は扱わない。

本記事の内容は執筆時点におけるものであり、将来のバージョンアップなどにより変化する可能性がある。

まず、利用規約を確認する。

ソフトウェア利用規約 | VOICEVOX

トップページの「ダウンロード」を押す。

VOICEVOX | 無料のテキスト読み上げ・歌声合成ソフトウェア

以下のような画面が出るので、OSなどを選択し「ダウンロード」を押す。

ファイルを保存する。
Windows の GPU/CPU 版では、「インストーラー」を選択した場合、ここでのダウンロードサイズは約1.1MBだったが、インストーラーを起動すると以下のような追加の容量を要求する表示が出た。

インストールのために合計 1.60 GB の追加ファイルをダウンロードします。
インストーラーが置かれたドライブには一時的に 3.20 GB 以上の空きが必要です。

「Zip」を選択した場合、ダウンロードサイズは約1.7GBだった。

今回は、インストーラーでインストールを進めた。
起動すると、まず2段階に分かれたデータのダウンロードがあった。
このダウンロード時に表示されるウィンドウは、タスクバーに表示されない上、2段階目のダウンロードが始まる時に位置がリセットされる (というより新しいウィンドウになる？) ため、処理が予期せず止まったと勘違いする可能性がある。
ダウンロードの完了後は、あまり変わった設定項目などは無く、画面に沿って進めるだけだった。

インストール時、「インストール先のドライブ」でも「システムの一時ディレクトリがあるドライブ」でもなく、起動したインストーラがあるドライブの容量の確保が求められる。
また、インストーラを置くドライブを切り替えるため一旦終了すると、その後インストーラを起動してもすぐに終了してしまい、なかなかインストールできなかった。
(現象の発生や解消の条件は不明だが、何度か起動を試みていると、しばらくしたあと起動に成功した。OSの再起動やデータの削除は行わなかった)
インストーラを用いる場合、起動するインストーラを置く位置に注意するべきだろう。

スタートメニューの「VOICEVOX」を選択することで、起動できる。
起動すると、まず利用規約への同意を要求された。
この利用規約はWebページに掲載されているものとは異なり、Google アナリティクスの使用に関するものであった。
とはいえ、1ページに収まる程度に短い、という点は共通していた。

同意すると、キャラクターの紹介の画面になった。
ここでは、各キャラクターの画像が表示され、ボイスを聞くことができるようだった。

「完了」を押すと、利用状況のデータの収集を許可するかを選択する画面になった。
ここでは、プライバシーポリシーとして再び Google アナリティクスの話題が出た。

「許可」を押すと、ここまで使えなかったメニューが使えるようになった。

2回目以降の起動では、ここまでの手順は省略でき、最初からメニューが使えるようだった。

VOICEVOX を起動している間、HTTP API が利用できる。
起動したウィンドウを (×ボタンなどで) 閉じると、VOICEVOX が終了し、HTTP API が利用できなくなる。
最小化であれば利用できる。

HTTP API は、http://localhost:50021 に API のドキュメントにあるパス (/audio_query など) を繋げたパス (http://localhost:50021/audio_query など) でアクセスする。

以下のページに、API のドキュメントがある。
(厳密には VOICEVOX ENGINE OSS のドキュメントなので、公式版とは違うかも)
voicevox_engine API Document

また、API の中に API のドキュメントも含まれている。
VOICEVOX Engine – Swagger UI (VOICEVOX 起動中のみアクセス可)
こちらは上記ページと比べて

本編とは別の目次が無い
各 API の説明がいちいち開かないと見られない
各 API に渡すデータの内容の説明がいちいち Schema を押さないと見られない

などの違いがあって見にくいが、情報の確実性は高いかもしれない。
上記ページを参照していて不具合が出た際に確認するとよさそうだ。

ここでは、具体的に音声合成に使用する HTTP API を見ていく。

パラメータ	意味
`text`	読み上げるテキスト
`speaker`	用いる話者を指定する整数

パラメータ	意味
`text`	読み上げる内容を指定する文字列
`speaker`	用いる話者を指定する整数
`is_kana`	テキストの指定方法を表す論理値

指定内容	意味
`false` または省略	`text` は普通の日本語
`true`	`text` は読みの直接指定 (「AquesTalk 風記法」)

パラメータ	意味
`speaker`	初期化する話者を指定する整数
`skip_reinit`	指定した話者が初期化済みのとき、初期化を省略するか

値	意味
`false` または省略	初期化済みでも初期化を行う
`true`	初期化済みの場合は初期化を行わない

VOICEVOX をインストールして HTTP API を使う #JavaScript – Qiita

いいね:

関連

Chris のコーナー: Web コンポーネント – CodePen

Kagi ブログのタイポグラフィ – CodePen

Iframe 許可属性のサーガ – CodePen

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

#ヒカキン #コスプレ

#コスプレ #いいね #ヒカキン #バズりたい #ダンス #jonouchichannel #城之内チャンネル

AI技術で昭和アイドル風広告！ウテナモイスチャーが12月1日から新展開！

VOICEVOX をインストールして HTTP API を使う #JavaScript – Qiita

話者のリストを取得する

パラメータとして用いる適当な値を取得する

テキストから合成を行う内容を得る

音声合成を行う

音声合成用話者の事前初期化を行う

音声合成に GPU を用いる

localhost 以外のWebページから使用可能にする

共有:

いいね:

関連

Chris のコーナー: Web コンポーネント – CodePen

Kagi ブログのタイポグラフィ – CodePen

Iframe 許可属性のサーガ – CodePen

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル