対応 iPad mini 7 / mini 6 ガラスフィルム ガイド枠付き 【2枚セット-日本旭硝子素材】 iPad mini 第7世代 第6世代 保護フィルム iPad mini (第6世代) フィルム iPad mini7 iPad mini6 強化ガラス 液晶保護フィルム ガイド枠 全面保護 2.5D 硬度9 H 耐衝撃 飛散防止 貼り付け簡単 自動吸着 気泡ゼロ 指紋防止 ラウンドエッジ加工 超高質感 ipad mini6 スマートタブレット SENTM2PM6
¥965 (2025年5月5日 13:15 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)

生成AIを使用する際に同じ入力トークン(ファイルなど)をモデルに何度も渡すことがあります。この際にインプットのトークン数が多いと、プロンプトを実行するたびに入力のトークン数の処理が必要になり利用料金が増加してしまいます。
ここでコンテキストキャッシュを利用することで入力トークンをキャッシュに保存してから、キャッシュに保存されたトークンを後続のリクエストで参照することができます。
結果的にキャッシュに保存されたトークンを使用する方が、同じトークンを繰り返し渡すよりも費用が少なくなります。
一方で入力トークンの数やプロンプトの実行する回数によって毎回入力トークンを処理すべきか、コンテキストキャッシュを検討すべきかが変わってくるのではないかと考えました。
そこでどのような場合にコンテキストキャッシュを使用すべきかを検討しまとめたいと思います。
ドキュメントによるとコンテキストキャッシュを使用する状況は以下とのことです。
ユースケースとしては入力に使用するトークン数が多く、それに対して何度もクエリを行う場合が考えられます。
- 広範なシステム指示を伴う chatbot
- 長時間の動画ファイルの繰り返し分析
- 大規模なドキュメント セットに対する繰り返しのクエリ
- 頻繁なコード リポジトリの分析やバグ修正
コンテキストキャッシュは無料のサービスではなく運用コストを削減するための有料のサービスで以下の特徴があります。
- キャッシュトークン数:通常の入力トークン数と比較して割引料金で請求
- 保存期間:キャッシュに保存されたトークンの保存時間(TTL)。キャッシュに保存されたトークン数のTTL時間に基づいて課金。TTL の最小値や最大値に制限はなし
- その他の項目:入力トークンや出力トークンがキャッシュされていない場合などは別の料金が適用
また注意点としては以下もあります。
- コンテキスト キャッシュの最小入力トークン数は4,096で、最大数は指定されたモデルの最大数と同じです。
- モデルは、キャッシュに保存されたトークンと通常の入力トークンを区別しません。キャッシュに保存されたコンテンツは、プロンプトの接頭辞です。
- コンテキストキャッシュには特別なレートや使用量の上限はありません。GenerateContent の標準レートの上限が適用され、トークンの上限にはキャッシュに保存されたトークンが含まれます。
- キャッシュに保存されているトークン数は、キャッシュ サービスの create、get、list オペレーションから usage_metadata で返されます。また、キャッシュを使用している場合は GenerateContent でも返されます。
コンテキストキャッシュの料金体系
コンテキストキャッシュの料金はGeminiのモデルによって異なります。
なおGemini 2.5 Flashのモデルではキャッシュの機能は未実装となります。
Gemini 2.5 Pro プレビュー
- インプット価格:1.25USD(プロンプトトークン数20万超:2.50USD)
- コンテキスト キャッシュ保存の料金:0.31USD(プロンプトトークン数20万超:0.625USD)
- コンテキスト キャッシュ保存(ストレージ):4.50USD / 100万トークン / 時間
Gemini 2.0 Flash
- インプット価格:0.10USD(音声:0.70USD)
- コンテキスト キャッシュ保存の料金:0.025USD(音声:0.175USD)
- コンテキスト キャッシュ保存(ストレージ):1.00USD / 100万トークン / 時間
Gemini 1.5 Pro
- インプット価格:1.25USD(プロンプトトークン数12.8万超:2.5USD)
- コンテキスト キャッシュ保存の料金:0.3125USD(プロンプトトークン数12.8万超:0.625USD)
- コンテキスト キャッシュ保存(ストレージ):4.50USD / 100万トークン / 時間
Gemini 1.5 Flash
- インプット価格:0.075USD(プロンプトトークン数12.8万超:0.15USD)
- コンテキスト キャッシュ保存の料金:0.01875USD(プロンプトトークン数12.8万超:0.0375USD)
- コンテキスト キャッシュ保存(ストレージ):1.00USD / 100万トークン / 時間
冒頭で記載の通りコンテンツキャッシュを利用するとインプットの料金が安くなるだけではなく、キャッシュのストレージ保存料金もかかるため細かい資産の上での検討が必要になります。
コンテキストキャッシュの検討
コンテキストキャッシュ(以下、キャッシュ)を検討のための試算を実施するにあたって以下によって料金が変わるための考慮が必要です。
- Geminiのモデル
- 入力トークン数
- リクエスト数
- キャッシュのストレージの保存時間
上記を考慮の上で試算結果をスプレッドシートベースでまとめてみました。
スプレッドシートを参照するにあたって以下が前提条件となります。
- リクエスト数は50回、100回、200回で試算
- ストレージの保存時間は12時間、24時間、48時間で試算
- 上記の合計9パターン(3×3)で試算
- 緑塗りがキャッシュありの方が料金が安く、赤塗りがキャッシュありの方が料金が高い
リクエスト数:50回、ストレージの保存時間:12時間
リクエスト数:50回、ストレージの保存時間:24時間
リクエスト数:50回、ストレージの保存時間:36時間
リクエスト数:100回、ストレージの保存時間:12時間
リクエスト数:100回、ストレージの保存時間:24時間
リクエスト数:100回、ストレージの保存時間:36時間
リクエスト数:200回、ストレージの保存時間:12時間
リクエスト数:200回、ストレージの保存時間:24時間
リクエスト数:200回、ストレージの保存時間:36時間
試算結果の考察
- ストレージの保存時間が同じ場合、リクエスト数が増えれば増えるほどキャッシュありの方が安くなる傾向
- リクエスト数が同じ場合、キャッシュの保存時間が長くなるほどキャッシュなしの方が安くなる傾向
- 入力トークン数によってキャッシュあり/なしで料金に大きな差はない
- 高性能なGeminiのモデルの場合キャッシュありの方が安くなる傾向
- キャッシュの保存時間が24時間でリクエスト数が50回では他の条件を考慮してもキャッシュなしの方が安い
よって同じ入力トークンに対して高性能なモデル(Geminiの場合Pro)で24時間で50回以上のリクエストがある場合にはキャッシュの検討をし始めても良いのではないでしょうか。
Views: 0