土曜日, 7月 12, 2025
土曜日, 7月 12, 2025
- Advertisment -
ホームニューステックニュースAIエージェントによる社会シミュレーション - Generative Agents, AgentSociety, CitySimの紹介

AIエージェントによる社会シミュレーション – Generative Agents, AgentSociety, CitySimの紹介


こんにちは、株式会社松尾研究所シニアデータサイエンティストの大西です。

昨今、LLM/AIエージェントの発展に伴い、社会シミュレーションへの活用が進んでいます。都市計画、公共政策、マーケティングなどの分野では、施策や設計の効果を検証するためにシミュレーションが活用されていますが、その前提として人間の行動を忠実に再現することが重要になります。

これまではルールベースのエージェントが主流でしたが、近年の大規模言語モデル(LLM)の登場により、より柔軟でリアルな社会シミュレーション構築が可能になりつつあります。

本記事では、AIエージェントを用いた社会シミュレーションの進展を、2023年に発表されたGenerative Agents、そして2025年に登場したAgentSocietyCitySimの3つの事例を通して紹介し、実用化に向けた課題と今後の展望を考察します。

先日のJSAI2025での社会シミュレーション系の発表に関して、弊社データサイエンティストが以下のテックブログ記事で数件紹介しているので、こちらも是非ご覧ください。

https://zenn.dev/mkj/articles/d93bffaf0930d7#尾崎

従来のアプローチとその限界

従来の社会シミュレーションでは、Agent-Based Modeling(ABM)が中心的な役割を担ってきました。これは、エージェントの行動ルールを人間があらかじめ設計する方式であり、感染症モデル(感染確率・移動ルールを定義して伝播を再現)や避難行動モデル(最寄り出口に向かうなど単純な避難ルールの実装)など、比較的単純なシナリオには効果的に機能してきました。

しかし、ABMは以下のような限界があり、現実社会のシミュレーションにはルールベースでは対応しきれない創発的なふるまい人間らしさが求められます。

  • エージェントの行動ルールが固定されているため、予期しない出来事や環境の変化に柔軟に対応できない
  • あらかじめ決められた行動しか取れず、状況に応じて自発的に新しい行動を生み出すことが難しい
  • 感情・価値観・信念などの内面的な状態を表現しにくく、人間らしさの再現に限界がある

こうした課題に対し、大規模言語モデル(LLM)を活用したエージェントの導入は、自然言語による推論・対話・内省を通じて、より柔軟でリアルな人間らしい行動を再現できるようになりつつあり、社会シミュレーションにおける大きな転換点となっています。

紹介する3つの論文まとめ

本記事で紹介する3本の論文は、いずれも「AIエージェントによる社会シミュレーション」をテーマに据えた重要な研究であり、それぞれ異なるスケール・構造・応用可能性を示しています。

最初に、各論文の概要を表にまとめました。
後半ではこの比較を踏まえて、各研究の背景や技術構成、実験結果などを詳しく紹介していきます。

項目 Generative Agents AgentSociety CitySim
著者, 発表年 Park et al., 2023 Piao et al., 2025 Bougie et al., 2025
スケール規模 数十人 数千〜1万人 最大100万
使用環境 2次元の仮想都市 現実の都市空間(OpenStreetpMap) 現実の都市空間(OpenStreetpMap)
主な内部構造 記憶・内省・計画 感情・ニーズ・動機・認知 ニーズ・Belief・長期目標・複合メモリ構造
移動/POI選択 固定マップ上での移動 簡易モデル(Gravityベース) Belief-aware Gravity Model(=主観的な好みを加味して訪問先を重みづけするモデル) + 移動手段選択
使用LLM GPT-3.5(text-davinci-003) OpenAI / DeepSeek GPT-4o-mini(局所的にGPT-4)
プログラム GitHub – joonspk-research/generative_agents GitHub – tsinghua-fib-lab/AgentSociety 非公開
シミュレーション対象 バレンタインパーティの開催など 分極化・情報拡散・災害対応・UBI 活動分布の比較・人間らしさの評価・混雑予測など

Generative Agentsの台頭

Generative Agents(Park et al., 2023)は、数十人規模のAIエージェントが仮想空間内で生活し、観察、記憶、思考、行動をおこなう新しい社会シミュレーションの取り組みです。


Generative Agents: Interactive Simulacra of Human Behavior

主な特徴

  • エージェントは観察を通じて記憶を蓄積し、推論・行動に反映

  • LLMにより自然言語での内省や会話が可能となり、従来のABMでは困難だった創発的な行動が発現した

    “In an evaluation, these generative agents produce believable individual and emergent social behaviors. For example, starting with only a single user-specified notion that one agent wants to throw a Valentine’s Day party, the agents autonomously spread invitations to the party over the next two days, make new acquaintances, ask each other out on dates to the party, and coordinate to show up for the party together at the right time.”

    • エージェントが自主的にイベントを企画し、他のエージェントを招待する
      (例:バレンタインパーティーの開催) 
  • 属性や隣人との関係に関する初期プロンプトを与えたのみだが、小規模ながら人間らしい習慣・計画・社会的交流が観察された

    “Generative agents wake up, cook breakfast, and head to work; artists paint, while authors write; they form opinions, notice each other, and initiate conversations; they remember and reflect on days past as they plan the next day.”

    • 朝起きて朝食をとり、仕事や活動に向かう
    • アーティストが絵を描き、作家が作品を書く
    • お互いに気づき合い、話し始める会話的な交流
    • 昨日の出来事を覚え、反省しながら翌日の予定を立てる
  • OpenAI(text-davinci-003 / GPT-3.5系) を用いてエージェントの観察・記憶・内省・計画を自然言語で処理。SQLiteによる記憶管理や2Dマップ上のエージェント行動も含まれており、実装は GitHub 上で公開。
    GitHub – joonspk-research/generative_agents

この研究は、エージェントに「記憶」「内省」「創発的な社会性」を持たせるという新しいアプローチを提示し、後述するAgentSocietyCitySimのような大規模社会シミュレーション研究の礎となりました。

AgentSocietyによる大規模な社会シミュレーション

AgentSociety(Piao et al., 2025)は、LLM駆動のAIエージェントによる最大100万人規模の社会シミュレーションを可能にしたフレームワークです。
Generative Agents が数十人規模の仮想社会を対象としていたのに対し、AgentSocietyでは都市スケールでの生活・移動・対話・仕事・消費といった複雑な社会活動を、エージェントが自律的に遂行する点が大きな特徴です。


AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society

主な特徴

  • 1万人規模のエージェントが仮想都市内に存在し、生活・移動・会話などの社会的活動を自律的に行う。

“Based on the proposed simulator, we generate social lives for over 10k agents, simulating their 5 million interactions both among agents and between agents and their environment.”

  • エージェントには人間らしい「心的状態(minds)」が備わっており、以下のような内部要素が行動に影響を与える:
    • 感情(emotions)
    • ニーズ(needs)
    • 動機(motivations)
    • 認知(cognition)

“These agents are endowed with human-like “minds”, which include emotions, needs, motivations, and cognition of the external world. Their behaviors such as mobility, employment, consumption, and social interactions are dynamically driven by these internal mental states.”

  • Stream Memoryと呼ばれる記憶システムが導入されており、エージェントが過去の行動・観察・感情・思考をEvent Flow(出来事の記録)と Perception Flow(それに対する内的反応) の2層構造で時系列的に保存する仕組みを持つ。内省(reflection)・意思決定・行動計画を行い、自らの状態や経験に応じて文脈的に適応した行動を選択可能。

Stream Memory: This is the core part of the memory system and tracks events and perceptions over time. It is composed of two types of memory streams: Event Flow and Perception Flow. Each stream is organized chronologically, with multiple MemoryNodes in each stream. Each MemoryNode contains a description with three components: time, location, and event description.

  • OpenAIやDeepSeek-V3を用いてエージェントの思考・行動を生成しており、ローカル環境での実行も可能なvllm/ollama などの推論エンジンにも対応。実装はGitHub上で公開。
    GitHub – tsinghua-fib-lab/AgentSociety

社会シミュレーションによる妥当性検証

AgentSocietyは単なる技術的なシミュレーション基盤にとどまらず、実世界の社会現象や政策を模倣した“社会シミュレーション”を通じて、その妥当性と実用性を評価しました。
※以下の表では、評価項目ごとに論文内の章番号および図番号を併記しています。

評価項目 実験内容 実験結果
7.2 分極化 銃規制に関するSNS上の意見交換を再現 同じ意見ばかり受け取った場合 → 分極化(52%が極端な意見に)
異なる意見にも触れた場合 → 中道化(89%が中立な意見に)(Fig.16)
7.3 扇動的投稿の拡散 感情的・炎上的な投稿の拡散と対策を検証 ノード(投稿者)への介入により、情報拡散と感情の過熱を最も効果的に抑制できたことが確認された(Fig.17)
7.4 UBI(ベーシックインカム) 月$1,000の無条件給付を仮想的に導入した社会政策実験 消費の増加と抑うつ傾向(CES-Dスコア)の軽減が観察され、実際の社会に近い傾向を再現(Fig.20)
7.5 災害時の行動変化 ハリケーン接近時の人の移動パターンを再現 ・外出率が 通常70~90% → 災害下では30%に減少
・通過後は段階的に回復し、実際のデータとよく一致(Fig.22-23)

CitySim:都市ダイナミクスの忠実な再現を目指して

CitySim(Bougie et al., 2025)は、AgentSocietyをさらに発展させた、LLMエージェントによる都市スケールの行動モデリングフレームワークです。

CitySim: Modeling Urban Behaviors and City Dynamics with Large-Scale LLM-Driven Agent Simulation

主な特徴

  • 数万のエージェントが、現実の都市構造(例:東京)を模した空間で生活し、移動・選択・意思決定を行う。
  • エージェントは以下のような内部状態を持ち、人間らしい行動の根拠としている:
    • Needs Module:空腹、安全、社交、エネルギーといった基本的なニーズをスコア化し、時間と経験によって変化する。
    • Belief Module:訪問先(POI)に対する主観的評価(価格、雰囲気、利便性など)を記憶・更新。
    • Long-term Goal Module:Maslowの欲求段階説に基づき、月単位で価値観・目標を再構築。経済状態や満足度の変化が反映される。
  • 記憶構造
    • Temporal Memory: 時系列で行動・経験・評価を記録する
    • Reflective Memory: 主観的な内省や感情の変化を蓄積する
    • Spatial Memory: 地理的なPOIの主観的評価(空間記憶)を管理する
  • 計画生成:
    • 毎朝、強制的な予定(仕事・睡眠など)をベースに再帰的にスケジュールを生成(Recursive Planning
    • 空き時間には候補行動を生成し、期待満足度の高いものをLLMが選択(Value-driven Planning
  • 移動と選択:
    • POI(Point of Interest)の選択には主観評価(Belief)を加味した Belief-aware Gravity Model を用いる
    • 徒歩、自転車、車、公共交通など複数の交通手段をLLMを用いて柔軟に選択
  • 技術面:
    • LLMにはGPT-4o-miniを主に使用
    • Personaモデルは、現実の統計・調査データ(例:日本の国勢調査、ライフスタイル調査)に基づき初期化
    • POIや空間構成は OpenStreetMap(オープンソースの地理空間データベース)を利用
    • 実装は非公開

社会シミュレーションによる妥当性検証

CitySimは以下のような多面的な評価実験を通じて、人間らしさ・現実との整合性・応用性が検証されています:

評価項目 実験内容 実験結果
4.1 活動分布の比較 総務省「社会生活基本調査(2021)」とエージェント行動を比較 年齢・活動別で高い一致率。活動比率の分布が近似(Fig.1)
4.2 人間らしさの評価 GPT-4oが15ペアの行動を Naturalness・Coherence・Plausibility の観点で比較 CitySimが他手法よりも人間らしいと判断された割合:58〜85%(Fig.2)
4.3 移動パターンの再現 平日・休日の1時間単位の移動件数を集計し、スマホ位置情報と比較 通勤・週末の移動ピークが実データと時間帯・傾向ともに一致、特に平日朝のピークを他手法よりも再現できている(Fig.3)
4.4 POI人気の予測 渋谷エリアの訪問頻度とGoogleレビューのランキングとの順位相関を分析 CitySimは正の順位相関、AgentSocietyは相関が弱いと報告。具体的な相関係数は未記載(Fig.4)
4.5 幸福度アンケートの再現 実回答1,200件と同じペルソナでエージェントを動かし、仮想回答を生成 F1スコア:CitySim = 0.36 ± 0.02、XGBoost = 0.45、AgentSociety = 0.28(Table 1)
4.6 混雑ヒートマップの再現 渋谷エリアの人流分布をヒートマップ化し、スマホ位置情報と比較 実データと高密度地域の分布傾向が駅・繁華街周辺に集中し一致している。実データの低密度については再現せず(Fig.5)

実用化に向けた課題

これまでに3つの論文(Generative Agents, AgentSociety, CitySim)を紹介しました。しかし、実社会での応用に向けては以下のような課題が考えられます。

1. コスト面の課題

CitySimやAgentSocietyのようなLLM駆動エージェントシミュレーションは、エージェントごとに複数のLLM API呼び出し(計画生成・行動選択・内省・記憶更新など)を行う構造であり、大規模な計算コストと時間コストがかかることが指摘されています。

CitySimの論文内に具体的な計算コストやLLM APIの呼び出し回数に関する定量的な記述は明示されていませんが、Section 4にて以下のように述べられています:

“All agents are powered by the GPT-4o-mini version of ChatGPT, except when specified differently, with the number of agents set to 1,000 located in Tokyo metropolitan area.”

“Each agent simulates two months of daily activities, which are mapped to the high-level activity categories used in the survey.”

これは、1,000人のエージェントが60日分の詳細な日常スケジュールを生成・更新し続けることを意味しており、計画生成・行動選択・内省・記憶更新といった処理のたびにLLM推論が必要になる構成を考慮すると、実行には相当量のLLM API呼び出しと演算資源が必要となると考えられます。

AgentSocietyにおいても、約1万人のエージェントが500万件以上のインタラクションを行うという大規模なシミュレーションが実施されたと記載されています:

“Based on the proposed simulator, we generate social lives for over 10k agents, simulating their 5 million interactions both among agents and between agents and their environment.”

さらに同論文では、レートリミット回避のために DeepSeek-V3 APIを使用し、Huawei Cloud 上でオフピーク時間帯(午前5–7時)に実行するなど、LLM APIの効率的利用を考慮した実装的工夫も見られます。

このように、忠実な社会シミュレーションを都市スケールで実行するには、LLMの推論コストが大きなボトルネックとなります。
しかし、現実世界で同規模の社会実験や政策介入を行うには、膨大な予算・時間・倫理的配慮が必要となる点を考慮すると、仮想空間でのLLMエージェントシミュレーションは、コスト・時間・倫理的リスクの面で相対的に実行可能性が高い手段であるといえます。


2. 少数派エージェント再現性の課題

LLMベースのエージェントは、訓練データに基づく平均的な思考や行動傾向を学習しているため、社会的・文化的なマイノリティの行動や価値観を再現しにくいという課題もあります。

CitySimでは、POI選択にBelief-aware gravity modelを採用し、訪問履歴と主観的評価を用いて移動先を決定しますが、以下のような記述もあります:

“CitySim sometimes underestimates crowd in small streets, likely due to its belief-enhanced gravity model, which may reflect LLM popularity bias.”(Section 4.6)

この記述からわかるように、人気POI(駅・商業施設)に訪問が集中しすぎる傾向があり、人通りの少ない場所やマイナーな施設の訪問行動を十分に再現できない可能性を示しています。

このような観点からも、実データによる補完や、エージェントの多様性設計、マイノリティ視点のパーソナライズなどが今後の実用化に向けて重要となると考えられます。


3. LLMによる自己評価のバイアス課題

CitySimでは、エージェントの行動がどれだけ人間らしいかを評価するために、GPT-4oを「判定者(LLM-as-a-Judge)」として使用し、ペアワイズ比較による自然さ(Naturalness)・一貫性(Coherence)・妥当性(Plausibility)の評価を行っています。一方で、エージェントの生成は主に GPT-4o-mini によって行われており、同系列のLLMが生成と評価の両方に使われていることによる過大評価のリスクが指摘されています。

こうした点を踏まえ、著者らもLimitationsセクションにて以下のように明示的に述べています:

“Some experiments in our paper rely on LLM-as-judge evaluations using GPT-4o, while GPT-4o-mini powers the agents themselves. Although this circular evaluation approach may introduce significant bias, as LLMs tend to favor content generated in their own style, it remains a common practice due to the scalability and consistency offered by automated evaluations.”

そのため、LLMによる評価だけでなく、人間評価や実データとの整合性による検証を組み合わせることが、今後の社会シミュレーション評価の信頼性を高めるうえで重要になると考えられます。

まとめ

本記事では、3つの論文を通じてAIエージェントを用いた社会シミュレーションの進展をまとめました。

  • Generative Agents(Park et al., 2023) は、記憶・内省・対話といった認知要素を備えた小規模な仮想社会を実現し、小規模ながら人間らしい習慣・計画・社会的交流の観察を示しました。
  • AgentSociety(Piao et al., 2025) は、1万人規模の都市エージェントに人間らしい「心的状態(minds)」を組み込み、社会課題に対するシミュレーション実験の可能性を示唆しました。
  • CitySim(Bougie et al., 2025) は、空間記憶や長期目標を含む複雑な認知構造を備えたエージェントを構築し、都市スケールでの忠実な人間行動の再現を実現しました。

これらの研究はいずれも、都市政策、災害対応、公共サービス設計、社会的影響評価といった現実の意思決定に対して、有効なシミュレーション基盤となり得る可能性を示しています。特に、実世界のデータを用いたシミュレーション環境を活用することで、仮説検証や政策評価を低リスクかつ柔軟に行える手段として注目され始めています。

一方で実用化に向けては、LLM推論コストの最適化や少数派の行動再現性の担保、バイアスを含まない評価設計など、乗り越えるべき課題も存在します。

AIエージェントによる社会シミュレーションは、単なる研究ツールにとどまらず、現代社会をより深く理解し、より良い選択肢を模索するための支援技術として、今後さらに進化していくことを期待しています。本記事が、AIエージェントの応用に関心を持つ方々にとって、議論や研究のヒントとなれば幸いです。



Source link

Views: 1

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -