普段から chatGPTなど生成AIは使わせていただいていますが、
いつも思います。
「生成AI系サービス多すぎてキャッチアップ追いつかなさすぎ!」
ここでは概念の理解で深掘りはしていませんが、なぜ1つのサービスでまとまって
いろんなものを生成できないのかを軽くまとめます。
生成AIでできることはたくさんあります。
- 言語生成
- コード生成
- 画像生成
- 音声生成
- 動画生成
- 3Dモデル生成
…
なぜこれらがそれぞれ違うサービスになるかというと、
単なる「出力の違い」だけでなく、学習するデータの性質やモデルの設計も根本的に異なるからです。
できることの違いが生まれる理由
-
入力データ・生成対象の構造が根本的に違う
-> 何を生成するかによって前処理や特徴量抽出、学習時の表現方法がまったく異なります。 -
モデルアーキテクチャの最適化が違う
-> モデル設計は、目的に合わせた最適解を追求しているため、ひとつのモデルに全部詰め込むのはかなり難しく非効率であるのが現状です。 -
計算コストとリソースの問題
-> 全てのモダリティを高性能で処理できる巨大な統合モデルを作るには、莫大な計算資源が必要です。
サービスによって最新情報に違いがあるのは?
モデルは一度学習された「静的な知識」を持つ
多くの生成AIはこのように作られています:
- 大量のテキストや画像を収集
- 数週間〜数ヶ月かけてモデルを学習(Pretraining)
- 学習済みモデルをAPIやUIとして提供
つまり、「2024年10月時点までの情報を学習したモデル」は、
その後のこと(2025年のニュースや法改正)は一切知らないのです。
これをカットオフと呼びます。
サービスやモデルによって、このカットオフの時期が違うため、最新情報に違いが出てくるわけです。
なぜ毎日学習させないの?
これはシンプルに 学習に膨大な計算資源が必要 だからだと思います。
上述したように、学習するためには(長い)時間やコストをかけて情報を収集する必要があるため、随時読み込ませたりサービスを更新し続けるには限度があります。
外部データを使って補う方法がある
-
RAG(Retrieval-Augmented Generation):
→ 外部検索の結果をAIに渡して答えさせる手法 -
MCP(Model-Context Prompting):
→ 最新のPDF、表、CSVなどをプロンプトに渡して活用する設計
これらを使えば、モデルが知らない情報でも「今知っているふうに」使わせることが可能になります。
今回の内容を調べるだけでも知らない用語がたくさんあり、脳みそが追いついていかないですね…
LLM, RAG, MCP 等々、まだまだ深ぼって調べることがたくさんあるため、別途記事にしたいと思います。
また、筆者もまだまだ入門者ですので、
「こういうこと学んだこといいよ」
「自分も学び始めだけど、こういうこと知りたい」
とかあればぜひ教えてください〜!
また、株式会社シンシアでは、実務未経験のエンジニアの方や学生エンジニアインターンを採用し一緒に働いています。
※ シンシアにおける働き方の様子はこちら
弊社には年間100人以上の実務未経験の方に応募いただき、技術面接を実施しております。
この記事が少しでも学びになったという方は、ぜひ wantedly のストーリーもご覧いただけるととても嬉しいです!
Views: 2