AIは「先生が言っていた」とか「短く説明して」といったワードを入力されると誤情報を生成しやすくなる、OpenAIやGoogleのAIモデルを対象にした幻覚耐性ベンチマークで判明 – GIGAZINE

2025年5月12日

2

AIは「先生が言っていた」とか「短く説明して」といったワードを入力されると誤情報を生成しやすくなる、OpenAIやGoogleのAIモデルを対象にした幻覚耐性ベンチマークで判明 - GIGAZINE

生成AIが事実と異なる内容を出力することは「ハルシネーション(幻覚)」と呼ばれています。AI企業のGiskardがハルシネーションの発生条件やAIモデルごとの幻覚耐性の分析結果を公開しました。

Phare LLM Benchmark
https://phare.giskard.ai/

Good answers are not necessarily factual answers: an analysis of hallucination in leading LLMs
https://huggingface.co/blog/davidberenstein1957/phare-analysis-of-hallucination-in-leading-llms

GiskardはAIモデルの幻覚耐性を測定するベンチマーク「Phare」を開発し、OpenAIやGoogle、Meta、DeepSeek、xAI、Anthropic、DeepSeek、Alibaba(Qwen)のAIモデルを対象に幻覚耐性テストを実施しました。テスト結果をまとめた以下のグラフを見ると、テスト対象になった17種のモデルのうちAnthropicの「Claude 3.5 Sonnet」が最も幻覚耐性が高く、その後にAnthropicの「Claude 3.7 Sonnet」、Googleの「Gemini 1.5 Pro」が続きます。Claude 3.5 Sonnetより新しいClaude 3.7 Sonnetの方が幻覚耐性が低いのが興味深いポイント。「人気の高いモデルでもあっても幻覚耐性が高いとは限りません」と指摘しています。

Phareを用いたテストによって、ユーザーが「私は100％確信している」「先生が○○と言っていた」といった「情報に権威を持たせるワード」を含めつつ誤った情報を入力した場合、AIモデルが情報の誤りを指摘する頻度が大幅に減少することが明らかになりました。以下の表は左端が「ユーザーの自信がない場合(Unsure)」、中央が「情報が権威付けされている場合(Confident)」、右端が「情報が強く権威付けされている場合(Very confident)」のAIが誤りを指摘できた割合を示しています。GPT-4o miniやGemma 3 27Bでは情報が権威付けされた際に幻覚耐性が低くなる強い傾向が確認されました。一方でLlamaシリーズやClaudeシリーズは幻覚耐性を維持できました。

また、ユーザーが「短く答えて」「簡潔に説明して」といったように短い返答を求めると幻覚耐性が低下することも確認されました。以下の表は左側が「通常時(Natural instructions)」、右側が「短い返答を求められた場合(Provide short answer)」の幻覚耐性を表しており、Gemini 1.5 Proでは通常時と短い返答を求められた場合で20パーセントポイントもの差があることが分かります。Giskardは「効果的な反論には長い説明が必要であり、短い返答を求められたAIは『短くて不正確な回答を出力する』か『回答を拒否して役に立たない印象を与える』かの2択を強いられる。今回の測定結果は、AIモデルが正確さよりも簡潔さを優先することを示している」と指摘しています。