木曜日, 6月 19, 2025
- Advertisment -
ホームニューステックニュース「Deep Research」に 図表入りレポートを生成させる実装

「Deep Research」に 図表入りレポートを生成させる実装


株式会社ナレッジセンスは、生成AIやRAGを使ったプロダクトを、エンタープライズ向けに開発提供しているスタートアップです。本記事では、専門家のようなレポートを、図表付きで生成できる AIエージェント を実装するための手法について、ざっくり理解します。

この記事は、RAGの新手法である「Multimodal DeepResearcher」の論文について、日本語で簡単にまとめたものです。

https://arxiv.org/abs/2506.02454

今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合は、こちらの記事もご参考下さい。

ざっくりサマリー

「Deep Research」に 図表入りレポートを生成させる実装

最近、OpenAIの「Deep Research」機能が話題です。この機能では、Web上の情報をもとに深く考え、高精度な回答をすることができます。ただ残念ながら、現在のところ本家「Deep Research」では、テキスト(文字)だけでしか出力できません。

今回の「Multimodal DeepResearcher」の論文では、単なるテキストだけでなく、「図表・チャート入り」で、品質の高いレポートを出せるようにする ための手法です。

この手法のキモは、FDV (Formal Description of Visualization) という、チャートのデザインを構造的に記述するための 独自フォーマットを導入した 点です。これにより、LLMが人間のお手本レポートから「良いチャートデザイン」を学び、自律的に、高品質なチャートを生成できるようになります 。

問題意識

問題意識はシンプルです。「Deep Research」機能は便利だけど、アウトプットの結果が文字ばかりで見づらくなってしまうよね。ということです。

そもそも去年まで、LLMの出力は 「テキストだけ」でも十分 でした。というのも、これまでの通常のLLMや、シンプルなRAGの回答内容だと、そこまで長い文章にならなかったからです。

しかし、現在話題になっている「Deep Research」機能では、大量のレポートから、重厚長大なレポートを作成します。こうなると、テキストだけだと、レポートを直感的に理解することは出来ません。

手法

Multimodal DeepResearcherでは、以下のステップで、出力するレポートに図表を入れ込みます。

「Deep Research」に 図表入りレポートを生成させる実装

【事前にやっておくこと】

  1. 「お手本レポート」の収集

    • インターネット上のソースから、テキスト+高品質チャートを含むレポート(※もちろん人間が作成したもの)を収集しておく。
    • (例えば、Pew Research Center や Our World in Data などから6個くらい収集)

【ユーザーが質問を入力して来たとき】

  1. シンプルなDeep Reaserach

    • まず、ユーザーの質問に回答するために、「Web検索↔考察」のサイクルを自律的に実行してテキストで情報収集。(ここまでは通常のDeep Reaserach)
  2. お手本のテキスト化

    • 事前に用意したお手本レポート内のチャートを、FDVという統一テキスト形式に変換。
    • FDVとは、チャートを「レイアウト」「プロットのスケール」「データ」「マーク(棒や線などの要素)」の4つの観点で構造的に記述するフォーマット。
    • これにより、LLMは、「どのような文脈で、どのようなデザインのチャートが使われるか」を理解可能に。
      (下記はFDVの図解↓)
      FDVの説明
  3. 計画

    • 1と2を基に、レポート全体の構成(=アウトライン)と、チャートデザインの統一ルール(=スタイルガイド)を作成。
  4. レポート生成

    • まず、計画に沿って、テキストとFDV(チャートの設計図)を含む下書きを生成。
    • FDVをチャート画像に変換し、LLMが「評価↔修正」を繰り返して自律的に質を高める。
    • 下書きのFDVを、完成したチャート画像に差し替えて、最終的なレポートを完成

成果

「Deep Research」に 図表入りレポートを生成させる実装
まず前提として、今回の検証のために、100のトピックからなる独自の評価データセット「Multimodal ReportBench」が構築されています。以下、これを使って評価しています↓

  • Claude 3.7 Sonnet を使用した場合、ベースライン手法(DataNarrativeを改良したもの)に対して82%という高い勝率
  • Qwen3/Qwen2.5-VL などのオープンソースモデルでも、ベースラインを上回る性能
  • ベースラインと比較して、より複雑で多様なチャートを生成できることが示された

※ただし、生成されたチャートの要素が重なってしまう問題や、データの無い部分を捏造してしまう問題(ハルシネーション)も報告されています。

弊社では普段、エンタープライズ企業向けにRAGサービスを提供しています。既に「Deep Research」機能も自前で実装し、公開していますが、やはり、「プレゼンや会議の資料で使いたい」というユーザーは多いです。

テキストだけの資料でも便利ですが、ここで自動的に図表・チャートが挿入されたらさらに便利になりそうです。

2025年のRAGシステムでは、インプットもアウトプットも、さらに「マルチモーダル化」していくと予想しています。我々のようなRAG/AIエージェント開発者側としては大変ですが、ますます便利になるのは間違いなさそうです。

みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら



Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -