木曜日, 5月 1, 2025
ホームニューステックニュース動画や音声データから「あー」「えー」を秒で消す【adobe premire pro】 #Adobe - Qiita

動画や音声データから「あー」「えー」を秒で消す【adobe premire pro】 #Adobe – Qiita



動画や音声データから「あー」「えー」を秒で消す【adobe premire pro】 #Adobe - Qiita

ブログはコツコツ書いてるのですが、やっぱりこの熱い想いは伝わりにくいよなーと思って始めたポッドキャスト配信。

いくらデジタルに慣れているといっても本業は「システム開発」なので、メディアコンテンツ作成には不慣れな集団。
話す側も慣れていないので、「あー」「えー」「えっとー」という俗に言う「フィラー音声」がめちゃくちゃ入り、カットしたり繋いだりの編集にまぁ時間のかかること。

そんなとき、ふと昔見た記事を思い出した。
https://www.itmedia.co.jp/news/articles/2311/15/news082.html

まさにこれやん!と思ったんですが、この手のものって日本語に対応してなかったり精度が悪く使い物にならないパターンが多い。

なので、期待半分で実際に試してみました。


環境

PCスペックは以下の通り。

OS:Windows 11 Pro
プロセッサー:インテル® Core™ Ultra 5 プロセッサー 125H ※Intel® AI Boost
メモリ:16GB
ストレージ:512GB PCIe Gen4 NVMe TLC M.2 SSD

そこまで良いスペックではないので、そもそもPremiere Proが起動できるかなーと心配。

動作

懸念していた「そもそもPremiere Proが起動するのか」は無事クリア!
書き出しも、30分の音声データは数十秒だったので全く問題なしでした。
動画ではないので、編集時もモタつきはなかったものの、またにフリーズしたか?は何度かありましたが、許容範囲内でした。

設定は簡単

使い方は公式のチュートリアルで十分わかりやすかったので割愛。
https://www.adobe.com/jp/learn/premiere-pro/web/jp-1min-feature-transcribe?locale=ja&learnIn=1

音声データを読み込む。
読み込んだら、左側のメニューに「文字起こし」メニューが出てくるのでポチー。

30分くらいの音声データですが、10分くらいかかったかな。
このあたりはPCのスペックが大きく影響すると思います。

実際文字起こしした部分を選択すると、その部分の音声が再生できるようになります。

文字起こしが完了すると、フロートアイコンに「フィラーワード」「語感」がでてきます。

▼実際に文字起こしした画面。[・・・]となっている所が実際は「えー」「あー」と言ってます。
スクリーンショット 2025-04-24 141354.png

「フィラーワード」と「語感」の違い

フィラーワードは、「あー」「えー」という部分なんですが、実際に書き出した文字と音声を聞きくらべると「えー」の箇所が「語感」として認識されていました。

なので、どっちに割り振られているかは、「えー」の長さとか声量によるかなと感じます。
今回流し込んだ音声は、ほとんど「語感」に割り振られていました。

精度

最初特に設定を変更せず文字起こしを行うと、「フィラー音声」の識別は50%くらいな感じがしました。結構残ってるじゃん~残念、という感じ。

ただ、文字起こしオプションで、抽出の長さの時間を調整できます。
https://cgworld.jp/regular/202402-tipsnote.html

デフォルト値は「0.75」だったんですが、これを「0.3」ほどにすると、ほとんどの「フィラー音声」は切り取られました。

ただ、話をする中で「一呼吸おく」シーンって結構多いんですが、ここも漏れなく認識されてしまうので、実際に「フィラーワード」と「語感」を削除する際は、一括削除ではなく、選択して削除するか、一括削除して余白を入れるか、というひと手間は必要だなと感じました。
(0.5でも、若干残ってるなって感じは否めないでした。もう少し微調整したらうまくいくかも)

部分削除もできるので語感を多少残したい場合は、聞きながら部分削除していくのが良さそうです。

▼0.4にした場合。[・・・]の箇所が増えて、音声で聞くとほぼフィラーは消えています
2.png

▼フィラー(語間)を消した後の音声データ。
ぶつぶつに切れてるのがフィラーを消した証拠です。これ手動でやるのは気が遠くなる…
3.png

かなり使えるな!(流石adobeや)という感じ。精度はかなり高いです。
今までこのフィラー音声の削除に数時間かかっていたんですが、テストで試してみたのも数分だったので作業効率は各段に上がった感じがします。それだけでも月額数千円払う価値はありますね。

また文字起こししたデータでキャプションの自動作成もできるので、動画作成も割と簡単にできるのでは?と期待値が膨らみました。

この短縮された時間で、もっと楽しく濃厚なコンテンツ配信を行っていきたいです💛



フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -

Most Popular

Recent Comments