Apple Intelligence、みなさん使っていますか? OSアップデート後、私も持っているiPhone 16でApple Intelligenceをオンにしましたが、どうも使いこなせている気がしません。
そもそも、私が普段(意識して)使っているAI技術というと、録音した音声の文字起こしくらいなのです。そして、主に使っているツールはGoogle Pixelの「レコーダー」アプリです。
Pixelのレコーダーアプリは、ときどき文字起こしがストップしてしまうという残念なところがあったのですが、先日録音した1時間ほどの音声は途切れることなく文字起こしされており、改善が見られます。
iPhoneの「ボイスメモ」アプリも文字起こしに対応したので、使ってみなくてはと思っているのですが、習慣とは恐ろしいもので、ついPixelのレコーダーをタップしてしまい、iPhoneの存在を忘れてしまいます。
ただ、Pixelを携帯し忘れたとか、バッテリー残量が少ないといった際に、今後はiPhoneのレコーダーが心強い助けとなってくれるでしょう。
iPhoneの文字起こし精度は、自分がしゃべった言葉はほぼ間違いなく認識していたので、対面のインタビューで使うことはまったく心配していません。注目は、音が反響する広い会場での音声をしっかり認識するかどうか。人間の耳では問題なく判別できる言葉も、スマホだと誤認識することはPixelでもよくあります。
いろんな環境での音声をAIが学習すればいいのか、スマホのマイクの性能が上がればいいのか、私にはよく分からないのですが、反響する会場での音声認識の精度がさらに上がってくれることを期待しています。
このほかのApple Intelligenceの機能としては、絵文字作成機能の「ジェン文字」、画像生成の「Image Playground」、「作文ツール」「メールアプリとメッセージアプリでのスマートリプライ」などなど、色々ありますが、これらは使う機会があまりありません。
というのも、私は絵文字を積極的に使う人間ではないので、iPhoneのキーボードは「日本語-かな入力」と「英語(日本)」の2つしか設定しておりません。ジェン文字を使うなら絵文字キーボードを加えなくてはいけない。でも、申し訳ないのですが加える予定は今のところありません。
Image Playgroundは、試しに自分の顔を使ってこんな画像を作ってみましたが、趣味で絵を描くわけでもなく、プレゼン資料を作ることもほとんどないので、これも使う機会はほとんどなさそう。
作文ツールはまだ試していないのですが、ライターとしては、そもそも(難しい原稿はさておき)文章を書くのが好きなので使うかどうか微妙なところ。
スマートリプライは使ってみたいものの、私はメールのやり取りにGmailアプリを使っていて、iPhone標準の「メール」アプリはもう使っていません。スマートリプライを使うなら「メッセージ」でということになるのでしょうが、スマートリプライを必要とするメッセージはまずありません。ケータイWatchの「iPhone駆け込み寺」を参考に「通知の要約」はオンにしましたが、便利だなと思う瞬間はまだやってきていません。
なんだか非常にネガティブな文章になってしまったので、「生成AI、便利だー!」と思うものを1つご紹介させてください。
最近、「もしかしてPixelの文字起こしよりいいかも」と思って使っているのが「Google AI Studio」です。ただ、録音データファイルをアップして文字起こししてもらうという使い方になり、リアルタイム文字起こしではありません。ウェブ上のサービスなので基本的にパソコンでアクセスして使っています。スマホの話題じゃなくて申し訳ない……。
Googleなので、つまりGeminiなんですが、Google AI StudioとGeminiの違いをGoogle検索に質問してみたところ、「Geminiは、一般ユーザー向けのチャットインターフェースで、AIとの会話が主な用途です。一方、Google AI Studioは、開発者向けのプラットフォーム」という回答でした。
私個人の体験ですが、Googleドライブにアップした音声ファイルを指定して文字起こしをお願いすると、Geminiのご機嫌が悪いのか私のプロンプトの指示が悪いのか、何度も「続きを文字起こしして」とお願いしなければならなくなったりして、あまり上手く処理してくれないことがあります。
でも、Google AI StudioのGeminiはサクッと済ませてくれることが多いのです。
Google AI Studioで英語の音声の文字起こしをお願いしたら、勝手に日本語に翻訳して表示されたこともあってびっくりしました(もちろん、そのまま英語で文字起こしすることもできます)。MWCで大活躍してくれたことは言うまでもありません。
Pixelのリアルタイム文字起こしは、話されていることをその場で確認するのに便利ですが、広い会場だと誤認識があります。また、専門用語やサービス名は他の言葉に変えられてしまうことも多いです。
一方、Google AI Studioは、プロンプトに「これは通信関連イベントの講演音声です」とか「クアルコムの新しいチップについての説明です」などといった説明を加えて文字起こしをお願いすると、業界用語も正しく表記してくれて文字起こしの精度が上がる気がします。
もちろん、おかしいと思ったところは音声を聞き直したり、メーカーのサイトでスペックを見直したりといった確認が必要なことは言うまでもありません。
Views: 1