はじめに
Difyでは、OpenAI・Google・Anthropic・Metaなど、さまざまなLLM(大規模言語モデル)を選択して利用できます。
その中でも、Oracle Cloud Infrastructure(OCI) の Generative AIサービスで提供されるLLMを利用するための「OCI Generative AI」プラグインも公式で提供されています。
このプラグインに、画像(Vision)入力のサポート が加わりました!
今回は、Dify 公式プラグインにPRして承認された OCI Generative AI プラグインの 画像入力対応バージョンアップ について紹介します。
OCI Gen AI LLMモデルがVisinon(画像入力)に対応!
背景:
以前の OCI Generative AI プラグインでは、テキストプロンプトのみを送信することが可能でした。そのため、画像や写真を解釈するようなユースケースには対応できませんでした。
今回のアップデートでできるようになったこと:
- 画像とテキストの両方をプロンプトに含めて送信可能に
- Vision対応モデルの力を活かして、画像を含むプロンプトへの回答が得られるように!
今回承認されたPR:
修正内容など詳細はこちらをご確認ください!
Dify公式プラグインにアップデートリクエストをして承認されるまでの手順は、以前新しいモデル追加の時に投稿したこちらの記事をご参考ください!
利用可能なLLMモデル
今回のアップデートで、以下のOCIモデルが画像入力(Vision)対応となりました:
- meta.llama-3.2-90b-vision-instruct
- meta.llama-4-maverick-17b-128e-instruct-fp8
- meta.llama-4-scout-17b-16e-instruct
Difyでは、これらのモデル名の横に「👁 VISION」アイコンが表示されます。
Vision(画像入力)の使い方
● チャットボットで使う場合
1 . チャットボット作成時に、Vision対応モデル(👁アイコン付き)を選択
2 . Vision(画像入力)に対応しているモデルを選択すると、オーケストレーション設定に「ビジョン」(画像入力を許可するか)のパラメータが出てくるので、これを有効化
3 . 画像をドラッグ&ドロップ、もしくは送信ボタン左のファイルアイコンからアップロードすれば、画像+テキストのプロンプトが遅れます!
● ワークフローで使う場合
チャットボットと同様にVision対応モデルを選択し、画像入力を有効化後、入力された画像の変数をLLMに指定することでLLMが画像を処理できます。
おわりに
今回の対応により、OCI Generative AI プラグインはユースケースが広がりました。
ぜひこのアップデートを活用して、OCI LLM×画像×AIのマルチモーダル活用 を進めてみてください!
参考
Views: 0