ホームニューステックニュース最短10秒の音声でクローンを作れる「MiniMax-Speech」でいろいろしゃべらせる #AI - Qiita

最短10秒の音声でクローンを作れる「MiniMax-Speech」でいろいろしゃべらせる #AI – Qiita

By インモビ運営局

2025年5月20日

0

3

最短10秒の音声でクローンを作れる「MiniMax-Speech」でいろいろしゃべらせる #AI - Qiita

ノベルワークス所属のザワッチです！
たった10秒をインプットさせるだけで、音声クローンを作れると話題の「MiniMax-Speech」を使って、使用感を調査してみました。

MiniMaxはシンガポールに本社を置く、マルチモーダルモデルの開発に軸を置いたAIパイオニア企業です。

MiniMax Chat、Hailuo AI、Talkieといった幅広い製品を開発しており、これらのモデルを駆使して、迅速なAIアプリケーション開発を進めることができます。

今回使用する音声クローンモデル「Minimax-Speach」はTransformerベースのText-To-Speachモデルです。

肝なのがエンコーダ層（Encoder）のようで、入力された音声から、その話者固有の声質や話し方といった特徴を抽出します。

すでに学習されているモデルに音声の特徴を加えられるので、人間の音声の特徴やさまざまな言語を知っている状態に、入力された音声を学習を加えて学習されるため、効率よく、精度がよくなるという仕組みのようです。

ゼロショットモデルなので、入力音声に依存して学習しているわけではないのですが、入力音声だけであたかもその人のような音声を生成することができることに長けています。

詳しい内容は、論文、テックレポートに記載されています。

<br />

音声クローンの作成はいたって簡単です。

1.音声ファイルをアップロード or 録音
数十秒待つと、音声クローンができます。

<br />

名前、言語を設定して、いざ作成。

2.音声クローンの出来上がり
感情、スピード、ピッチなど詳細設定することができます。

無料プランの制約：

作成できるクローン数は最大3つ
音声生成できるテキスト数は合計10000字まで

MiniMaxはAPIを提供しており、音声クローンだけではなく、テキスト・画像・動画生成など、様々なコンテンツが生成可能です。

<br />

最短10秒の音声でクローンを作れる「MiniMax-Speech」でいろいろしゃべらせる #AI – Qiita

いいね:

関連

Chris のコーナー: HTML – CodePen

Chris のコーナー: Web コンポーネント – CodePen

Kagi ブログのタイポグラフィ – CodePen

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

疲労キン#ヒカキン切り抜き#新素材#ヒカマニ

実は地震を予兆しているかもしれないHIKAKIN#shorts #地震予測 #バズれ #ひかきん

ヒカキンさんから話題の冷凍みそきんラーメンが届いたんで正直にレビューしてみた【HIKAKIN】

最短10秒の音声でクローンを作れる「MiniMax-Speech」でいろいろしゃべらせる #AI – Qiita

事前準備

関西弁ありバージョン

セルフバースデイメッセージ

未来からの自分のメッセージ

映画「インデペンデンスデイ」の有名なスピーチ

共有:

いいね:

関連

Chris のコーナー: HTML – CodePen

Chris のコーナー: Web コンポーネント – CodePen

Kagi ブログのタイポグラフィ – CodePen

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル