ノベルワークス所属のザワッチです!
たった10秒をインプットさせるだけで、音声クローンを作れると話題の「MiniMax-Speech」を使って、使用感を調査してみました。
MiniMaxはシンガポールに本社を置く、マルチモーダルモデルの開発に軸を置いたAIパイオニア企業です。
MiniMax Chat、Hailuo AI、Talkieといった幅広い製品を開発しており、これらのモデルを駆使して、迅速なAIアプリケーション開発を進めることができます。
今回使用する音声クローンモデル「Minimax-Speach」はTransformerベースのText-To-Speachモデルです。
肝なのがエンコーダ層(Encoder)のようで、入力された音声から、その話者固有の声質や話し方といった特徴を抽出します。
すでに学習されているモデルに音声の特徴を加えられるので、人間の音声の特徴やさまざまな言語を知っている状態に、入力された音声を学習を加えて学習されるため、効率よく、精度がよくなるという仕組みのようです。
ゼロショットモデルなので、入力音声に依存して学習しているわけではないのですが、入力音声だけであたかもその人のような音声を生成することができることに長けています。
詳しい内容は、論文、テックレポートに記載されています。
音声クローンの作成はいたって簡単です。
1.音声ファイルをアップロード or 録音
数十秒待つと、音声クローンができます。
2.音声クローンの出来上がり
感情、スピード、ピッチなど詳細設定することができます。
無料プランの制約:
- 作成できるクローン数は最大3つ
- 音声生成できるテキスト数は合計10000字まで
MiniMaxはAPIを提供しており、音声クローンだけではなく、テキスト・画像・動画生成など、様々なコンテンツが生成可能です。
事前準備
- APIキーの発行
MiniMaxのアカウント登録をしたのちに、APIキーを発行しておきます。
- GroupIdの取得
APIを使うにあたって、ユーザ固有に与えられるIdを取得しておきます。
APIのほうもいたって簡単に音声クローンが作成できます。
1.音声ファイルのアップロード(レスポンスにある file_id を取得しておく)
2.音声をクローン
3.クローン音声を使用(T2A V2というモデルを使う)
音声ファイルの制約:
- 形式: MP3, M4A, WAV
- 長さ:10秒から5分
- 大きさ:20MB未満
今回はAPI経由で音声クローンを作成してみます。
まず、音声ファイルをアップロードします。
# Request Example
curl --location 'https://api.minimaxi.chat/v1/files/upload?GroupId=${group_id}' \
--header 'authority: api.minimaxi.chat' \
--header 'content-type: multipart/form-data' \
--header 'Authorization: Bearer ${api_key}' \
--form 'purpose="voice_clone"' \
--form 'file=@"Users/minimax/Downloads/audio.mp3"'
file_idが帰ってくるので保持しておきます。
# Request Example
{
"file": {
"file_id": your_file_id,
"bytes": 5896337,
"created_at": 1700469398,
"filename": "for_test",
"purpose": "voice_clone"
},
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}
次に、クローンを作成します。
# Request Example
curl --location 'https://api.minimaxi.chat/v1/voice_clone?GroupId=${group_id}' \
--header 'authority: api.minimaxi.chat' \
--header 'authorization: Bearer ${api_key}' \
--header 'content-type: application/json' \
--data '{
"file_id":your file id,
"voice_id":"your voice id"
}'
# Response Example
{
"input_sensitive": false,
"input_sensitive_type": 0,
"base_resp": {
"status_code": 0,
"status_msg": "success"
}
}
できた音声クローンにテキストを入力させ、音声を生成させます。
といきたいところなのですが、クレジットを追加しないといけないらしく、それが25ドルからと書いており、断念。。。
今回作成した音声クローンにいろんなシナリオで話させてみます。
関西弁ありバージョン
右側の設定で、色々変えれるみたいです。とりあえずSuprisedな感じに(笑)
ところどころ、漢字の読み方がおかしいが、抑揚がいい感じに表現されているような気がする。
セルフバースデイメッセージ
Emotionの設定がうまく反映されているような気がします。
最後の英語の発音が、一回も入力音声で話していないのにもかかわらずめちゃくちゃよくてびっくりしました。
未来からの自分のメッセージ
映画「インデペンデンスデイ」の有名なスピーチ
AIの音声生成でこんなにパッションを感じたのは初めて。ここまでくると怖い。。。
しかし、パッション強めのところでは音がガビガビしてる感じ。
こんなに短時間で簡単に音声クローンを作れるMiniMax社の技術に率直に感動しました。
それと同時に、簡単に作れるが故に悪用される危険性を強く感じました。
音声生成させた後の詳細設定だけでも、状況に応じた音声を生成できるので、いろいろカスタマイズできてワクワクしちゃいますね!
Views: 0