ホームニューステックニュースClaudeにばかり気を取られてた…エンベディングモデル側の最大トークン数 #AWS - Qiita

Claudeにばかり気を取られてた…エンベディングモデル側の最大トークン数 #AWS – Qiita

2025年4月20日

6

Claudeにばかり気を取られてた…エンベディングモデル側の最大トークン数 #AWS - Qiita

Amazon Bedrockのナレッジベース機能を使って、RAG（Retrieval-Augmented Generation）システムを構築します。RAGシステムでは、テキスト情報をベクトルに変換するエンベディングモデル、ユーザーの入力に基づいて回答を生成するテキスト生成モデルなどの基盤モデルを利用するのが一般的です。最近のテキストモデルは多くのトークンを扱うことが出来ますが、エンベディングモデル側の最大入力トークン数に注意しておく必要があります。

情報をベクトルデータベースに登録する際の処理イメージは以下の通りです。たとえば、「Aさんは静岡県出身」といったテキスト情報をあらかじめS3に格納しておきます。次に、ナレッジベースを同期すると、S3内の情報がエンベディングモデルによってベクトル（浮動小数点数のリスト）に変換され、ベクトルDBに保存されます。

チャットシステムなどを通じて、ユーザーがナレッジベースに問い合わせを行う際の処理フローについて説明します。たとえば、ユーザーが「Aさんの出身地は？」と質問した場合、Claude 3のようなテキスト生成モデルがそのままベクトルDBにクエリを投げるわけではありません。

まず、「Aさんの出身地は？」といった質問文をエンベディングモデルによりベクトル（浮動小数点のリスト）へと変換します。そのベクトルをもとに、ベクトルDB内の類似情報と照合して、関連するチャンクを取得します。その後、取得した情報をもとに、テキスト生成モデルが自然な回答を生成するといった流れになります。AWSの以下マニュアルに詳しい流れが書かれています。

<br />

Bedrockを使ってRAGシステムを構築中、RetrieveAndGenerateStreamメソッドを使用した際に、以下のようなエラーが発生しました。入力値または設定値に問題があるとのエラーですが、毎回発生したわけではないので、入力値に問題があるのではないかとあたりをつけました。

An error occurred (ValidationException) when calling the RetrieveAndGenerateStream operation: Invalid input or configuration provided. Check the input and Knowledge Base configuration and try your request again. (Service: BedrockAgentRuntime, Status Code: 400, Request ID: ****-****-****-****-****) (SDK Attempt Count: 1)

原因切り分けのため、ナレッジベースに対して直接問い合わせを行い、回答を得るテストプログラムを作成しました。入力文字数、応答結果、エラー内容を返してくれます。

import boto3
import json

REGION = "ap-northeast-1"
MODEL_ARN = "arn:aws:bedrock:ap-northeast-1::foundation-model/anthropic.claude-3-haiku-20240307-v1:0"
KNOWLEDGEBASE_ID = "*******"

# boto3 クライアント初期化
bedrock_agent = boto3.client("bedrock-agent-runtime", region_name=REGION)

# テストプロンプト
user_question = "これはテスト用の質問です。" * 80

context_prompt = f"""
以下はユーザーからの質問です：


{user_question}

"""

print(f" context_prompt文字数: {len(context_prompt)}")

# API 呼び出し
try:
    response = bedrock_agent.retrieve_and_generate_stream(
        input={"text": context_prompt},
        retrieveAndGenerateConfiguration={
            "type": "KNOWLEDGE_BASE",
            "knowledgeBaseConfiguration": {
                "knowledgeBaseId": KNOWLEDGEBASE_ID,
                "modelArn": MODEL_ARN,
            }
        }
    )

    # ストリーム受信
    print("応答:")
    for event in response.get("stream", []):
        if "output" in event:
            print(event["output"]["text"], end="")

except Exception as e:
    print("エラー発生:")
    print(e)

下記のように、異なる文字数での確認を行いました。

✅ 問題無し

# テストプロンプト
user_question = "これはテスト用の質問です。" * 80

context_prompt文字数: 1082
応答:

申し訳ありませんが、この質問に対する回答を検索結果から見つけることはできませんでした。この質問は、テスト用の質問であり、検索結果には関連する情報が含まれていないようです。

❌ 問題あり

# テストプロンプト
user_question = "これはテスト用の質問です。" * 100

context_prompt文字数: 1342
エラー発生:
An error occurred (ValidationException) when calling the RetrieveAndGenerateStream operation: Invalid input or configuration provided. Check the input and Knowledge Base configuration and try your request again. (Service: BedrockAgentRuntime, Status Code: 400, Request ID: ****-****-****-****-****) (SDK Attempt Count: 1)

使用していたエンベディングモデル「Cohere Embed Multilingual」の最大トークン数512に引っかかってエラーが発生していました。ナレッジベースで使用するエンベディングモデルをTitan Text Embeddings V2（最大トークン数：8k）にして再作成後、エラーが解消されました。

Source link

返事を書く返事をキャンセル

あなたのコメントを入力してください。

ここにあなたの名前を入力してください

間違ったメールアドレスを入力しました。

ここにあなたのEメールアドレスを入力してください

Claudeにばかり気を取られてた…エンベディングモデル側の最大トークン数 #AWS – Qiita

いいね:

関連

「アメリカ軍、レーザーで8.6km先に電力供給成功！」

鬼伝説！99段の石段と神社巡りの旅

ジュニアエンジニアなら“AI駆動開発は設計が9割” ─ 出戻りゼロの実践手法

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

「欧州委員長、トランプ氏と貿易会談へ」

ファビアソ登場！#プロスピa #プロスピ #プロスピ切り抜き #プロ野球 #ゲーム実況 #shorts

ポケセンでお買い物#ポケカ #ポケモン #pokemon #ポケモンセンター #shorts

Claudeにばかり気を取られてた…エンベディングモデル側の最大トークン数 #AWS – Qiita

共有:

いいね:

関連

「アメリカ軍、レーザーで8.6km先に電力供給成功！」

鬼伝説！99段の石段と神社巡りの旅

ジュニアエンジニアなら“AI駆動開発は設計が9割” ─ 出戻りゼロの実践手法

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル