Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 100W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890 (2025年5月1日 13:13 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)【Android 15 タブレット 初登場】Bmax I10 Plus アンドロイド 15 タブレット 10インチ、12GB+128GB+1TB拡張、WidevineL1 Netflix対応、8コアCPU T606 タブレット、6000mAh+Type-C充電+5GWiFi+BT5.0、OTG+顔認識+無線投影+画面分割+FMラジオ、Android 15 タブレット 10インチ wi-fiモデル
¥16,900 (2025年5月1日 13:12 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)
ブログはコツコツ書いてるのですが、やっぱりこの熱い想いは伝わりにくいよなーと思って始めたポッドキャスト配信。
いくらデジタルに慣れているといっても本業は「システム開発」なので、メディアコンテンツ作成には不慣れな集団。
話す側も慣れていないので、「あー」「えー」「えっとー」という俗に言う「フィラー音声」がめちゃくちゃ入り、カットしたり繋いだりの編集にまぁ時間のかかること。
そんなとき、ふと昔見た記事を思い出した。
https://www.itmedia.co.jp/news/articles/2311/15/news082.html
まさにこれやん!と思ったんですが、この手のものって日本語に対応してなかったり精度が悪く使い物にならないパターンが多い。
なので、期待半分で実際に試してみました。
環境
PCスペックは以下の通り。
OS:Windows 11 Pro
プロセッサー:インテル® Core™ Ultra 5 プロセッサー 125H ※Intel® AI Boost
メモリ:16GB
ストレージ:512GB PCIe Gen4 NVMe TLC M.2 SSD
そこまで良いスペックではないので、そもそもPremiere Proが起動できるかなーと心配。
動作
懸念していた「そもそもPremiere Proが起動するのか」は無事クリア!
書き出しも、30分の音声データは数十秒だったので全く問題なしでした。
動画ではないので、編集時もモタつきはなかったものの、またにフリーズしたか?は何度かありましたが、許容範囲内でした。
設定は簡単
使い方は公式のチュートリアルで十分わかりやすかったので割愛。
https://www.adobe.com/jp/learn/premiere-pro/web/jp-1min-feature-transcribe?locale=ja&learnIn=1
音声データを読み込む。
読み込んだら、左側のメニューに「文字起こし」メニューが出てくるのでポチー。
30分くらいの音声データですが、10分くらいかかったかな。
このあたりはPCのスペックが大きく影響すると思います。
実際文字起こしした部分を選択すると、その部分の音声が再生できるようになります。
文字起こしが完了すると、フロートアイコンに「フィラーワード」「語感」がでてきます。
▼実際に文字起こしした画面。[・・・]となっている所が実際は「えー」「あー」と言ってます。
「フィラーワード」と「語感」の違い
フィラーワードは、「あー」「えー」という部分なんですが、実際に書き出した文字と音声を聞きくらべると「えー」の箇所が「語感」として認識されていました。
なので、どっちに割り振られているかは、「えー」の長さとか声量によるかなと感じます。
今回流し込んだ音声は、ほとんど「語感」に割り振られていました。
精度
最初特に設定を変更せず文字起こしを行うと、「フィラー音声」の識別は50%くらいな感じがしました。結構残ってるじゃん~残念、という感じ。
ただ、文字起こしオプションで、抽出の長さの時間を調整できます。
https://cgworld.jp/regular/202402-tipsnote.html
デフォルト値は「0.75」だったんですが、これを「0.3」ほどにすると、ほとんどの「フィラー音声」は切り取られました。
ただ、話をする中で「一呼吸おく」シーンって結構多いんですが、ここも漏れなく認識されてしまうので、実際に「フィラーワード」と「語感」を削除する際は、一括削除ではなく、選択して削除するか、一括削除して余白を入れるか、というひと手間は必要だなと感じました。
(0.5でも、若干残ってるなって感じは否めないでした。もう少し微調整したらうまくいくかも)
部分削除もできるので語感を多少残したい場合は、聞きながら部分削除していくのが良さそうです。
▼0.4にした場合。[・・・]の箇所が増えて、音声で聞くとほぼフィラーは消えています
▼フィラー(語間)を消した後の音声データ。
ぶつぶつに切れてるのがフィラーを消した証拠です。これ手動でやるのは気が遠くなる…
かなり使えるな!(流石adobeや)という感じ。精度はかなり高いです。
今までこのフィラー音声の削除に数時間かかっていたんですが、テストで試してみたのも数分だったので作業効率は各段に上がった感じがします。それだけでも月額数千円払う価値はありますね。
また文字起こししたデータでキャプションの自動作成もできるので、動画作成も割と簡単にできるのでは?と期待値が膨らみました。
この短縮された時間で、もっと楽しく濃厚なコンテンツ配信を行っていきたいです💛
Views: 0