ホームニューステックニュースKARAKURI VL - 日本語コンピュータユースに特化した視覚言語モデル

KARAKURI VL – 日本語コンピュータユースに特化した視覚言語モデル

2025年7月11日

0

 はじめにGENIACの第2期プロジェクトで開発した視覚言語モデル「KARAKURI VL」を公開いたしました。

    
    
  

    
    
  
KARAKURI VLは、日本語環境でのコンピュータユースを念頭に置いて開発された視覚言語モデルです。従来のモデルでは英語環境での操作が中心でしたが、日本語のユーザーインターフェースや文書を理解し、適切に操作できるモデルを目指しました。
なお、今回公開したモデルを実際にコンピュータユースで活用する方法については、別途詳しい記事を準備中です。

 公開モデル今回公開したのは以下の2つのモデルです：
両モデルとも、Qwen2.5-VL-32B-Instructをベースモデルとして学習を行いました。

 学習方法
 データセット構築日本語環境でのコンピュータユースを実現するため、以下のような多様なデータセットを独自に構築しました：

日本語環境でのコンピュータ操作記録：日本語OSやアプリケーションでの操作手順

日本語文書画像QA：日本語で書かれた文書の理解と質問応答

日本語の図表読み取り：グラフ、チャート、表などの視覚的情報の解釈

OCR（光学文字認識）：画像内の日本語テキストの認識と理解

フローチャート読解：業務フローや処理手順の理解
これらのデータセット作成における詳細な手法や工夫点については、今後別記事で詳しく解説予定です。

 学習手法モデルの学習は以下の3段階で実施しました：

 1. 教師ありファインチューニング（SFT）まず、上述の独自データセットを用いて、ベースモデルに対して教師ありファインチューニングを実施しました。これにより、日本語環境での視覚理解能力を獲得させました。

 2. モデルマージSFTで得られたモデルと、元のQwen2.5-VL-32B-Instructモデルをマージすることで、日本語特化能力と汎用性のバランスを図りました。これにより、日本語タスクでの性能向上と同時に、英語など他言語での能力も維持できました。この段階で完成したモデルが「KARAKURI VL 32B Instruct 2507」です。

 3. 強化学習による推論能力向上さらなる性能向上を目指し、ステージ2でマージしたモデルを起点として、Chain of Thought（CoT）による推論能力向上を図ったモデル「KARAKURI VL 32B Thinking 2507 Experimental」を開発しました。このモデルでは、GRPO（Group Relative Policy Optimization）による強化学習を実施し、推論過程をタグ内で明示化することで複雑な問題への対応能力を向上させています。
この強化学習では、以下の多面的な報酬設計を行いました：
正確性報酬
回答の正しさを評価します。ルールベースで判定可能なタスクはルールベースで、複雑な判定が必要なものは参照回答をもとにLLM as a Judgeを活用しました。
スタイル報酬
回答の質や読みやすさをLLM as a Judgeを用いて評価します。内容の正確性とは独立して、マークダウン記法による適切な装飾や、わかりやすく詳細な説明がなされているかを判定しました。
フォーマット報酬
タグの適切な使用など、指定されたフォーマットが正しく守られているかをルールベースで評価しました。
言語一貫性報酬
ユーザーのプロンプト言語と回答言語の一致性をチェックし、自然な言語使用を促進しました。
リピティションペナルティ
回答内での不自然な繰り返しを検出し、ペナルティを課すことで出力品質を向上させました。
なお、LLM as a Judgeには学習中の各時点でのモデル自身を使用する自己改善的なアプローチを採用しました。

 学習環境・リソース学習にはAWS Trainiumを使用し、効率的な大規模学習を実現しました。

 性能評価各種ベンチマークでの評価結果は以下の通りです：



JDocQA (ACC)
JMMMU
Heron


Qwen2.5-VL-32B-instruct
25.2
48.8
74.8

KARAKURI VL 32B Instruct 2507
26.3
55.2
81.0

KARAKURI VL 32B Thinking 2507 Experimental
27.3
51.0
73.9

Llama-3.2-11B-Vision
15.4
36.4
38.1

Llama-3-EvoVLM-JP-v2
17.6
34.6
47.6

Gemma 3 27B IT
20.2
50.5
69.2

Heron-NVILA-Lite-15B
19.2
49.5
68.5

Sarashina2-Vision-14B
23.9
43.0
60.1

KARAKURI VLは、ベースモデルであるQwen2.5-VL-32B-Instructと比較して、すべてのベンチマークで性能向上を達成しており、特にJMMUとHeronベンチマークで大幅な改善を示しています。

 おわりにKARAKURI VLは、日本語環境でのコンピュータユースという特定の用途に焦点を当てて開発された視覚言語モデルです。今後も継続的な改善を行い、より実用的なモデルの提供を目指してまいります。
モデルの詳細な使用方法や、実際のコンピュータユースでの活用例については、今後公開予定の記事をお待ちください。

	JDocQA (ACC)	JMMMU	Heron
Qwen2.5-VL-32B-instruct	25.2	48.8	74.8
KARAKURI VL 32B Instruct 2507	26.3	55.2	81.0
KARAKURI VL 32B Thinking 2507 Experimental	27.3	51.0	73.9
Llama-3.2-11B-Vision	15.4	36.4	38.1
Llama-3-EvoVLM-JP-v2	17.6	34.6	47.6
Gemma 3 27B IT	20.2	50.5	69.2
Heron-NVILA-Lite-15B	19.2	49.5	68.5
Sarashina2-Vision-14B	23.9	43.0	60.1

Source link

返事を書く返事をキャンセル

あなたのコメントを入力してください。

ここにあなたの名前を入力してください

間違ったメールアドレスを入力しました。

ここにあなたのEメールアドレスを入力してください

KARAKURI VL – 日本語コンピュータユースに特化した視覚言語モデル

はじめに

公開モデル

学習方法

データセット構築

学習手法

1. 教師ありファインチューニング（SFT）

2. モデルマージ

3. 強化学習による推論能力向上

学習環境・リソース

性能評価

おわりに

いいね:

関連

「読書で脳活性化＆孤独感軽減！」

Claude CodeがネイティブWindowsをサポートしました🎉🎉🎉Bedrock APIキーにも対応！！！ #AWS – Qiita

neoAI 日本語 Reasoning Model を開発

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

「パク・ギュヨン、イカゲームフィギュアでへそ出し近況公開！」

「ちびまる子ちゃん」に新キャラ登場！日高里菜がアン役！

「POCO X7 Proの実力を徹底検証」

KARAKURI VL – 日本語コンピュータユースに特化した視覚言語モデル

はじめに

公開モデル

学習方法

データセット構築

学習手法

1. 教師ありファインチューニング（SFT）

2. モデルマージ

3. 強化学習による推論能力向上

学習環境・リソース

性能評価

おわりに

共有:

いいね:

関連

「読書で脳活性化＆孤独感軽減！」

Claude CodeがネイティブWindowsをサポートしました🎉🎉🎉Bedrock APIキーにも対応！！！ #AWS – Qiita

neoAI 日本語 Reasoning Model を開発

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル