はじめに
neoAI は日本語で思考過程を出力することで論理的思考能力を向上させた大規模言語モデル(LLM)「neoAI-JP-QwQ-32B」および「neoAI-JP-DeepSeek-Qwen-32B」を公開しました。このようなモデルは一般的にReasoning Modelと呼ばれ、OpenAIのoシリーズやDeepSeek-R1等が代表的なモデルとなっています。
日本語Reasoning Modelの開発に関して2段階でテックブログを公開します。Part 1 では日本語Reasoning Model開発の重要性および継続事前学習を用いた方法のご紹介、Part 2 では強化学習を用いた言語混同への直接的なアプローチをご紹介します。
Reasoning Model とは
Reasoning Modelは、回答を出力する前に内部的な思考過程を明示的に実行する大規模言語モデルです。従来のLLMが直接的に回答を生成するのに対し、Reasoning Modelは問題を段階的に分解し、論理的な推論ステップを経て最終的な回答に到達します。
この思考過程は通常、特別なトークン(例:
タグ)で囲まれた内部モノローグとして表現され、モデルが「なぜそのような回答をしたのか」を理解可能にします。これにより、複雑な数学問題、論理パズル、多段階の推論が必要なタスクにおいて、従来のLLMを大幅に上回る性能を発揮します。
代表的なReasoning Modelには以下があります:
- OpenAI oシリーズ: 数学、科学、コーディング分野で卓越した性能を示す
- DeepSeek-R1: オープンソースとして公開され、多言語での推論を可能にする
- QwQ: 中国語と英語での思考過程を得意とする
LLMの思考を可視化することの重要性
LLMは現在、多くの分野で幅広く活用されていますが、その回答に至る過程がブラックボックスであることが課題でした。ユーザーからも「LLMがなぜそのような回答をしたかを理解したい」という強い要望があります。
Reasoningモデルは最終的な回答の出力の前に,そこに至るまでの思考の過程を出力することでChain-of-Thoughtの原理で回答精度を向上させたり,モデルが回答に至った根拠をある程度知ることができます(
の中)。しかし既存のモデル(例:QwQ)は主に中国語または英語での思考プロセスを出力するため、日本語環境での利用に課題がありました。
今回neoAIが開発した新しいモデルは、日本語での思考過程の出力を可能にしました。これにより、日本語話者がモデルの思考プロセスをより直感的に理解できるようになりました。
日本語Reasoning Modelの利点
- 理解しやすさ: 日本語話者が思考過程を自然に理解できる
- デバッグ容易性: モデルの判断ミスを特定しやすい
- 教育的価値: 学習者がモデルの推論方法を学べる
- 信頼性向上: 透明性により、モデルへの信頼度が向上
開発したモデル
学習フロー
私たちは継続事前学習とモデル重み差分の活用という2つの技術的手法を組み合わせました:
- 継続事前学習による日本語強化: Qwen2.5-32Bをベースに、日本語データでの継続事前学習を実施し、neoAI-JP-Qwen2.5-32Bを開発。llm-jp-corpus v3の一部の約4B tokenを使って学習を行う。
- Chat Vector を用いたReasoning能力の移植: DeepSeek-R1-Distill-Qwen-32BとQwen2.5-32Bの重み差分を計算し、この「Reasoning Vector」を日本語強化モデルに加算
この手法により、日本語能力とReasoning能力を効率的に統合することができました。
QwQ-32Bベースのものに関してはDeepSeek-R1-Distill-Qwen-32BをQwQ-32Bに置き換えて開発しました。
ベンチマーク結果
性能はベースラインとなるQwen/QwQ-32Bやdeepseek-ai/DeepSeek-R1-Distill-Qwen-32Bと同等のスコアが出せていて、日本語で思考しながらも論理的推論能力自体の低下は見られませんでした。
評価はgpt-4o-2024-11-20を用いて行い、回答生成は以下のパラメータで行いました。
temperature = 0.6
top_k = 40
top_p = 0.95
min_p = 0.0
max_new_tokens = 4096
出力例
出力例を見ると、thinkの部分も日本語になっていることが分かります。
【入力1】
経済成長率、消費者物価指数、失業率などの経済指標と日本銀行の金融政策との関係性を説明してください。その経済指標に影響を与える主な政策手段を示し、それぞれの効果について考察してください。
【出力1】
Qwen/QwQ-32B | neoAI/neoAI-JP-QwQ-32B | |
---|---|---|
think | Okay, so I need to explain the relationship between economic indicators like GDP growth rate, consumer price index, unemployment rate, and the Bank of Japan’s monetary policy. Also, I have to… | はい、ユーザーから経済指標と日本銀行の金融政策の関係性についての質問を受けましたね。まず、経済指標として経済成長率、消費者物価指数、失業率が挙げられています。それぞれ日本銀行政策との関係を説明する必要がありそうです。 まず、経済指標と日本銀行の政策のつながりについて総論的に説明する必要があるかな。… |
answer |
日本銀行の金融政策と経済指標の関係性 1. 経済成長率(GDP成長率) • 関係性:日本銀行(BoJ)は、経済成長率の低迷時に緩和的な金融政策を実施し、需要の拡大を促進します。低金利や量的・質的金融緩和(QQE)により、企業の投資や個人消費を活性化させ、GDP成長率を押し上げます。逆に… |
日本銀行(日銀)の金融政策は、物価の安定、経済成長の持続的推進、金融システムの安定を目的とし、その手段として市場金利の操作や資産購入、非伝統的政策を活用しています。以下、経済指標(経済成長率、消費者物価指数(CPI)、失業率)と日銀の政策手段の関係性、各政策の効果を整理します。 ### 1. 経済指標と日銀金融政策の関係性… |
【入力2】
1から500までの数字を入力するのに何回キーボードを叩く必要があるでしょうか? 1桁の数字を入力するには1回、2桁の場合は2回、3桁の場合は3回キーボードを叩く必要があるものとします。 選択肢: (a) 1156 (b) 1392 (c) 1480 (d) 1562 (e) 1788
【出力2】
Qwen/QwQ-32B | neoAI/neoAI-JP-QwQ-32B | |
---|---|---|
think | 嗯,用户让我算出从1到500输入数字需要敲键盘多少次。每个数字的位数对应敲击次数,比如1位数1次,两位数两次,三位数三次。选项是a到e中的一个。我得仔细想想怎么计算… | まず、問題文を確認します。1から500までの数字を入力するのに、キーボードを何回叩く必要があるかを求めています。1桁は1回、2桁は2回、3桁は3回の操作が必要というルールです… |
answer | 1から500までの数字を入力するためのキーボードの押下回数を、1桁・2桁・3桁に分けて計算します。…### 答え (b) 1392 |
## 回答 (b) 1392 ### 解説: 1桁(1-9): 9数字 × 1回 = 9 2桁(10-99): 90数字 × 2回 = 180 3桁(100-499): 400数字 × 3回 = 1200 500: 1数字 × 3回 = 3 合計: 9 + 180 + 1200 + 3 = 1392… |
おわりに
Reasoning Modelは高い能力を持つ一方で、Anthropicによって思考過程において虚偽の情報を生成する可能性も指摘されており、継続的な研究が必要です。
Part 2では、強化学習を用いた言語混同への直接的なアプローチについて詳しく説明し、別の方向での日本語Reasoning Modelの開発について述べる予定です。
文責:大槻真輝,山下佳威
モデル開発/評価:山下佳威,川本稔己,大槻真輝,峰岸剛基,板井孝樹
We’re Hiring!
こちらのテックブログは、画像生成やLLM 開発などを通して、社内の技術力を先導している neoAI の研究組織「neoAI Research」メンバーで執筆しています。
「未来を創る生成AIの先駆者になろう」
neoAI では最先端技術を駆使するプロフェッショナル集団として、業務効率化を超えて社会に新たな価値を創出していきます。あなたの好奇心と可能性を、neoAI で開花させてみませんか?
【現在採用強化中です!】
・AIエンジニア/PM職
・Biz Dev
・自社プロダクトエンジニア職
・オープンポジション
【詳しい採用情報はこちらから!】
Views: 0