はじめに
こんにちは、データエンジニアをしているMaruです。
近年、データ基盤と統合したAIエージェント開発のプラットフォームとしてDatabricksが注目を集めています。DatabricksはAIエージェントの開発および運用を効率化するために多くの機能を提供しており、その一つにAIエージェントの性能を評価するMosaic AI Agent Evaluationがあります。
本記事では、その中でもLLMを利用した精度評価機能LLM-as-a-Judgeに焦点を当て、日本語環境でどの程度活用できるかを検証し、その結果を共有します。
本記事の対象者
Databricksで生成A…
Source link