はじめに
GENIACの第2期プロジェクトで開発した視覚言語モデル「KARAKURI VL」を公開いたしました。
KARAKURI VLは、日本語環境でのコンピュータユースを念頭に置いて開発された視覚言語モデルです。従来のモデルでは英語環境での操作が中心でしたが、日本語のユーザーインターフェースや文書を理解し、適切に操作できるモデルを目指しました。
なお、今回公開したモデルを実際にコンピュータユースで活用する方法については、別途詳しい記事を準備中です。
公開モデル
今回公開したのは以下の2つのモデルです:
両モデルとも、Qwen2.5-VL-32B-Instructをベースモデルとして学習を行いました。
学習方法
データセット構築
日本語環境でのコンピュータユースを実現するため、以下のような多様なデータセットを独自に構築しました:
- 日本語環境でのコンピュータ操作記録:日本語OSやアプリケーションでの操作手順
- 日本語文書画像QA:日本語で書かれた文書の理解と質問応答
- 日本語の図表読み取り:グラフ、チャート、表などの視覚的情報の解釈
- OCR(光学文字認識):画像内の日本語テキストの認識と理解
- フローチャート読解:業務フローや処理手順の理解
これらのデータセット作成における詳細な手法や工夫点については、今後別記事で詳しく解説予定です。
学習手法
モデルの学習は以下の3段階で実施しました:
1. 教師ありファインチューニング(SFT)
まず、上述の独自データセットを用いて、ベースモデルに対して教師ありファインチューニングを実施しました。これにより、日本語環境での視覚理解能力を獲得させました。
2. モデルマージ
SFTで得られたモデルと、元のQwen2.5-VL-32B-Instructモデルをマージすることで、日本語特化能力と汎用性のバランスを図りました。これにより、日本語タスクでの性能向上と同時に、英語など他言語での能力も維持できました。この段階で完成したモデルが「KARAKURI VL 32B Instruct 2507」です。
3. 強化学習による推論能力向上
さらなる性能向上を目指し、ステージ2でマージしたモデルを起点として、Chain of Thought(CoT)による推論能力向上を図ったモデル「KARAKURI VL 32B Thinking 2507 Experimental」を開発しました。このモデルでは、GRPO(Group Relative Policy Optimization)による強化学習を実施し、推論過程を
タグ内で明示化することで複雑な問題への対応能力を向上させています。
この強化学習では、以下の多面的な報酬設計を行いました:
正確性報酬
回答の正しさを評価します。ルールベースで判定可能なタスクはルールベースで、複雑な判定が必要なものは参照回答をもとにLLM as a Judgeを活用しました。
スタイル報酬
回答の質や読みやすさをLLM as a Judgeを用いて評価します。内容の正確性とは独立して、マークダウン記法による適切な装飾や、わかりやすく詳細な説明がなされているかを判定しました。
フォーマット報酬
タグの適切な使用など、指定されたフォーマットが正しく守られているかをルールベースで評価しました。
言語一貫性報酬
ユーザーのプロンプト言語と回答言語の一致性をチェックし、自然な言語使用を促進しました。
リピティションペナルティ
回答内での不自然な繰り返しを検出し、ペナルティを課すことで出力品質を向上させました。
なお、LLM as a Judgeには学習中の各時点でのモデル自身を使用する自己改善的なアプローチを採用しました。
学習環境・リソース
学習にはAWS Trainiumを使用し、効率的な大規模学習を実現しました。
性能評価
各種ベンチマークでの評価結果は以下の通りです:
JDocQA (ACC) | JMMMU | Heron | |
---|---|---|---|
Qwen2.5-VL-32B-instruct | 25.2 | 48.8 | 74.8 |
KARAKURI VL 32B Instruct 2507 | 26.3 | 55.2 | 81.0 |
KARAKURI VL 32B Thinking 2507 Experimental | 27.3 | 51.0 | 73.9 |
Llama-3.2-11B-Vision | 15.4 | 36.4 | 38.1 |
Llama-3-EvoVLM-JP-v2 | 17.6 | 34.6 | 47.6 |
Gemma 3 27B IT | 20.2 | 50.5 | 69.2 |
Heron-NVILA-Lite-15B | 19.2 | 49.5 | 68.5 |
Sarashina2-Vision-14B | 23.9 | 43.0 | 60.1 |
KARAKURI VLは、ベースモデルであるQwen2.5-VL-32B-Instructと比較して、すべてのベンチマークで性能向上を達成しており、特にJMMUとHeronベンチマークで大幅な改善を示しています。
おわりに
KARAKURI VLは、日本語環境でのコンピュータユースという特定の用途に焦点を当てて開発された視覚言語モデルです。今後も継続的な改善を行い、より実用的なモデルの提供を目指してまいります。
モデルの詳細な使用方法や、実際のコンピュータユースでの活用例については、今後公開予定の記事をお待ちください。
Views: 0