近ごろの生成AIには、さまざまなトレンドがあります。
たとえばOpenAIのo3のように、回答する前に問題を段階的に「思考」する推論モデルがありますし、ウェブ上から情報を集約してレポートを作成してくれる「ディープリサーチ」機能なども存在します。
しかし、今もっとも「未来的」だと感じられるのは、おそらく「ボイスモード」でしょう。
話すAIから見るAIまで
これは、2013年の映画『her/世界でひとつの彼女』が予感させたような、普通の人間と会話するかのように話せるチャットボットを実現するものです。
テキストチャットと内容自体は変わりませんが、「リアル」で「自然な」声で応答することで、あたかもロボットではなく人間と話しているかのような錯覚を生み出します。
私は、この機能をChatGPTのような大手サービスであっても特に魅力的だとは思ったことがありません。技術的には確かにすごいのですが、実際に耳を澄ませば、やはりロボットだとすぐにわかってしまうのです。
AI企業はこうした“ロボットらしさ”を完全には消せていませんが、それでもチャットボットと「関係」を築いたり、さらには恋に落ちたりする人がいるというのですから驚きです。
私がそれよりも感心しているのは、「ビジョン」機能です。
ある種のチャットボットはただ返答をするだけでなく、ユーザーのカメラにアクセスして、ユーザーが見ているものを“見る”ことができ、その情報を回答に組み込むことも可能です。
ChatGPTやGeminiがすでにそうした機能を提供していて、今回「Grok」もそこに参入しました。
Grokは「見る」ことができる
Grokは、ボイスモードにおいてこの“視覚”を獲得した最新のチャットボットです。
xAIの開発者であるEbby Amir氏が火曜日にX上で発表したところによれば、「Grok Vision」と呼ばれるこの機能は多言語音声とリアルタイム検索をサポートしており、後者の機能はSuperGrokの有料購読者のみが利用できるとのことです。
私の環境では、すでにこの機能が利用可能になっています。
まずは既存のボイスモードオプションをタップしてみてください。まだ使ったことがない場合は、Grokにマイクへのアクセス許可を与える必要がありますが、そのあとすぐに会話をはじめられます。
「Vision」を使うには、画面左下のカメラアイコンをタップし、Grokにカメラアクセスを許可します。そうするとライブ映像が表示され、そこに映し出されているものについてGrokに尋ねられるようになります。
Grokにイタズラした結果……
私は自分のライブ映像をxAIに直接送ることに少し抵抗があるので、スマホをテーブルの上に置いたまま、映像を「真っ暗」の状態にしておきました。
するとGrokは熱心に問題解決を試み、カメラが故障しているのではないか、環境が暗すぎるのではないかといった提案をしてくれました。
私が、実はスマホを宇宙空間に持ち出していると伝えると、Grokは笑い、それが原因に違いないと結論づけ、下記のように言いました。
へえ、宇宙空間ですか? それなら真っ暗な映像になるのも当然ですね。そこには光がありませんし、カメラもそういう環境向けにつくられていないでしょう。宇宙用デバイスが必要かもしれませんね。
今月に入ってから、Grokにはすでに大きなアップデートがもう1つありました。
先週、Grokに「メモリ」機能が追加され、過去の会話を参照してより関連性の高い回答を導き出せるようになったのです。
Source: Youtube, nytimes, X, Techcrunch