こんにちは、松尾研究所の奥村です。
LLMの性能向上により、従来のNLPタスクだけではなく、より複雑な推論が求められるタスクでの活用が注目されています。特にゲームプレイは、画面の理解や記憶、複雑な意思決定などが要求されるため、LLMの能力を総合的に評価する有効な手段として期待されています。
今回はLLMをゲームで評価するLMGame-Benchというベンチマークについて紹介します。
公式サイト:
https://lmgame.org/
論文:
https://arxiv.org/pdf/2505.15146
LMGame-Bench概要
ゲーム画面のみから直接行動を決定して評価するの…
Source link
Views: 0