木曜日, 8月 7, 2025
木曜日, 8月 7, 2025
- Advertisment -
ホームニューステックニュース今日から始める Vibe Data Science - Preview となった Data Science Agent でデータ分析してみる

今日から始める Vibe Data Science – Preview となった Data Science Agent でデータ分析してみる


本日 (2025年8月5日) 、Colab Enterprise ならびに BigQuery Studio の Notebook から、Data Science Agent (DSA) をプレビューで利用できるようになりました。

Data Science Agent を使うと、一連のデータ分析作業を Notebook 上で自律的に行ってくれます。
Gemini CLI によるコーディングを Vibe Coding というならば、これは Vibe Data Science と命名できるでしょうか?

それでは Data Science Agent により何が実現できるのか、実際にみていきましょう。

BigQuery のテーブルで Vibe Data Science

DSA は Colab Enterprise の画面下の Gemini アイコン、または右上の「Gemini」ボタンから呼び出せます。

BigQuery Notebook では多少 UI に差異がありますが、概ね同じ手順で呼び出せます。

DSA を呼び出すと、チャットインターフェースが表示され、ここから Agent に各種の指示を飛ばせます。

ではBigQuery のデータを使って、簡単な回帰分析を行ってみましょう。

bigquery-public-data.ml_datasets.penguins にペンギンの種類・体長・体重等をまとめたテーブルがあるため、これを使って体重の予測(回帰)を行ってみます。チャットインターフェースに次のプロンプトを入力してください。
(8月5日現在、日本語を入力中に意図せずプロンプトが送信される挙動となっています。あらかじめ別途文章を作成したうえ、チャットインターフェースにコピペしてください。)

`bigquery-public-data.ml_datasets.penguins` を使い、ペンギンの体重を予測する回帰モデルを構築してください

プロンプトを送信してしばらく待つと、Agent からデータ分析の方針が提示されます。

少しチャットインターフェイスが小さいため、右側の「パネルに移動」ボタンを押して、別タブでインターフェースを開きます。

分析方針の全貌が見えました。データの読み込み、探索、前処理を行ったうえで、回帰分析モデル(おそらくは線形回帰)のトレーニングと評価をおこなってくれるようです。典型的な分析フローですね。
もし分析方針を変更したい(例えば、外部テーブルを使ってデータをエンリッチしたり、ハイパーパラメータチューニングを加えたりする)場合、追加でチャットすることで方針を編集させることもできます。

ここでは、「承認して実行」をクリックしましょう。

すると、Notebook にセルが挿入されます。
現在の DSA では、セルの実行にはユーザーの都度承認が必要になります。生成されたコードが問題ないことを確認のうえ、「承認して実行」を都度押して進めてください。

進めてゆくと、DSA はテーブルデータの統計情報を参照し欠損値があることや、入力カラムにカテゴリカル特徴があることを確認しています。

それを踏まえて、次のステップでは欠損値処理(ここでは単にデータを落としているだけ)や one-hot encoding を実施しています。
DSA は Notebook のセルを生成するだけでなく、セルの実行結果も解釈して次の実行ステップを動的に変化させます。

最後まで進めると、回帰モデルの training 、evaluation を行い、簡単なサマリーまで生成してくれます。このように DSA は、データ分析の典型的な手順を自動化します。

さて、せっかくなのでもう少し突っ込んだ分析を行ってみましょう。まずせっかく線形回帰を行ったので、回帰診断図を書いてみましょう。これらの図は、回帰分析の仮定にどれだけデータが即していたか確認するため、よく使用されるものです。

Agent に

構築した線形回帰モデルに対して、回帰診断図を書いてください

と入力、実行方針が提案されたら承認します。

すると、残差プロットと Q-Q プロットを生成してくれました。さらに単にプロットするだけでなく、それぞれのプロットの評価の仕方や解釈結果まで教えてくれます。

さらに今度は、別のモデルとの比較検討も依頼してみましょう。
次のプロンプトを送信します。

lightGBMを使った回帰も試して、線形回帰と性能を比較検討してください。

同様に、実行計画が提案されたら承認します。

lightGBM の training、elaluation も線形回帰同様に行い、最終的に線形回帰の方が優れている、との結論まで出しています。(本当は、それぞれのモデルで誤差が大きかったサンプルを確認するなどして総合的に判断するべき、とも思いますが…)

これまでご紹介したように、DSA はデータサイエンスのタスクの大幅な効率化を実現します。手元でいくつかのデータで試したところ、大学学部生程度のタスクであれば難なくこなせているようです。ただ、欠損値を活用せずに単純に落としてしまったり、一部の評価基準だけでモデルの優劣を決めてしまったり、(ペンギンのデータ程度では問題にならないでしょうが)データの共線性を確認しているようには見えなかったり…と、ある程度データ分析に熟れている方からすると、ちょっと気になるところはあります。そんなときは、明示的にプロンプトで指示すればそれを汲んで計画を修正してくれます。

率直なところ今の DSA には、熱意のある駆け出しデータサイエンティストの後輩という印象を持ちました。
現状でも、複雑な分析を適用する前のベースラインの検討や、普段 Notebook を触らないビジネスユーザーがデータ分析の力を活用したい際には大きな力になってくれるでしょう。今後のさらなる性能向上にも期待しつつ、適材適所で使用し始めてみてはいかがでしょうか?

Gemini CLI と Data Science Agent

ところで、Gemini CLI でも Jupyter Notebook の開発はできますし、BigQuery への接続も MCP サーバーや bq コマンドを適切に構成すれば可能です。
では、これと比べた DSA のメリットはなんなのでしょう?

私は

  • マネージドであること
  • Notebook セルを正確に編集できること
  • セルの実行と実行結果の解釈、それを踏まえた実行計画の変更をシームレスにできること

が大きなメリットであると考えます。

Gemini CLI を使う場合、Gemini CLI が動く環境を構築してそれ自体の認証を通し、BigQuery への接続も適切に構成し…と手順を踏む必要があります。一方、DSA はそれ自体がマネージドであるため、環境構築を意識することなく、ブラウザさえあればどんな環境からでも利用できます。

また、Notebook セルの編集も DSA の方が得意です。Gemini CLI でNotebook ファイル (.ipynbファイル) を編集する場合、基本的にはその実体の JSON を操作する必要があります。その際、極まれに JSON 構造を破壊し、開けない Notebook ファイルを生成してしまうことがあります。(JSON壊してない?と Gemini CLI に聞けば、大体すぐに修正してくれますが)。DSA はセルの直接操作に対応しているため、Notebook の破壊は起こりえません。

最後に、Gemini CLI で Notebook を取り扱う場合「生成された Notebook を手動で実行。実行結果を再度 @ でコンテキストに入れ、それを再度 Gemini に解釈させて次のセルを生成させ…」とユーザー側での作業が多くなります。これは Gemini CLI がデフォルトでは、直接ノートブックの実行・実行結果の読み取りを行えないことに起因します。(GEMINI.mdを適切に記述すればおそらくある程度は省力化できますが。)
一方で DSA は、生成したセルの実行、実行結果の解釈、それを踏まえての次セル生成をシームレスに実行できます。本ブログの執筆中には発生しませんでしたが、生成したコード実行が途中で失敗した場合、DSAはエラーコードを読み取ってコードの自動修正・再実行まで試みます。
このように、DSAを使うと非常に優れた Notebook 開発体験を得られます。

見方を変えると、Data Science Agent は、BigQuery や Jupyter Notebook へのコネクション設定済みの、データサイエンス特化型 Gemini CLI 環境と見なすこともできるでしょうか。

Data Science Agent の今とこれから

現在、DSA は BigQuery 上のデータの他に、ローカルからアップロードしたファイルの分析に対応しています。csv ファイルの分析はもちろん、PDFファイルからデータを抜き出すスクリプトの作成等、非構造化データの取り扱いも可能です。

現在はプレビューのため機能が限られていますが、今後より便利な機能が追加されていくと思います。

Data Science Agent を使った Vibe Data Science、ぜひ皆様もご体験ください。



Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -