Part 1では、日本語Reasoning Modelの重要性と、継続事前学習を用いた開発手法についてご紹介しました。今回は、Reasoning Modelが直面する課題の一つである「言語混同」に焦点を当て、強化学習(Reinforcement Learning: RL)を用いたその解決アプローチについて深掘りします。
近年、OpenAIのo1シリーズやDeepSeek-R1のようなReasoning Modelは、その優れた論理的思考能力で注目を集めています。しかし、これらのモデルには共通の課題が存在します。それは、思考過程において、複数の言語が混在する「言語混同」という現象です。
観測されている言語混同の事例
この言語混同は、様々な場面で観測されていますが、その原因や効果的な対処法については、依然として十分に解明されていません。以下に、近年報告されている代表的な事例を紹介します。
- DeepSeek-R1: 強化学習で高性能なReasoning Modelを構築したDeepSeek-R1も、論文で言語混同の問題に言及し、これを抑制するための報酬設計を導入していることが知られています。 (具体的な手法の詳細は公表されていません。)またこの問題はこのReasoning Modelを分析する論文でもLanguage Mixingとして取り上げられています。
- API提供LLM: Google Geminiのthinkingモードでも、ユーザーから日本語と他言語が混ざるという報告がされています。
- オープンLLM: Abejaさんが公開しているQwenベースのモデルでも、他言語の汚染が課題として挙げられています。
言語混同が引き起こす実用上の問題点
- ユーザー体験の低下: 日本語で思考や回答を期待しているユーザーにとって、他言語の混入はユーザー体験を損ね、モデルの信頼性を低下させる要因となりえます。
- システム処理への悪影響: 自動処理を行う業務システムにおいて、出力される言語が不規則に混在すると、後段のパースやフィルタリング処理が困難になります。
- ドメインごとの品質要求: 特定のドメインや業界では、指定された言語での出力が厳格に求められる場合があります。このような場合、言語の一貫性はモデルの品質を測る上で重要な指標となります。
この言語混同の問題に対して、私たちは 強化学習(RL)における報酬設計の工夫 により改善を図るアプローチを採用しました。Part1で紹介したような継続事前学習も有効な手段ですが、高い学習コストやモデル再訓練の必要性から、今回はより軽量な事後学習的アプローチ(RLによる微調整)に焦点を当てています。
特に注目したのは、DeepSeek-R1においても導入されている、言語一貫性を報酬に組み込む手法です。この方法は、モデルのReasoning能力を維持したまま、出力の言語的整合性を高めることができると期待されます。また、報酬設計が比較的シンプルであることから、導入コストも低く抑えられるという利点があります。
GRPOの導入と報酬設計
今回の学習には、DeepSeek-R1でも活用されているGRPO(Group Relative Policy Optimization)という強化学習アルゴリズムを用いました。GRPOの詳細説明は省きますが、通常のSFT(Supervised Fine-Tuning)とは異なり、明示的な教師出力に従うのではなく、設計された報酬関数を最大化するように、モデル自身が出力を試行錯誤して最適化することを特徴としています。
GRPOフレームワークにおいて、以下の2種類の報酬を組み合わせて学習を行いました:
- 正解報酬: 通常の数学タスクと同様、最終的な出力が正解かどうかに基づいて報酬を与えます。
- 言語一貫性報酬: モデルの出力に含まれる単語のうち、目標言語(ここでは日本語)に属する単語の割合を基準として報酬を与えます。日本語の割合が高いほど高い報酬が得られるよう設計することで、言語混同を抑制します。
この言語一貫性報酬の設計にあたっては、Cohereが提案した多言語整合性指標を参考にしました。
具体的には、
- 形態素解析: MeCabを用いて出力文を単語単位に分割。
- 言語識別: 軽量な識別モデルにより、各単語が日本語に属するかを判定。
- 報酬の算出: 出力内の日本語単語数を全単語数で割った比率を言語一貫性報酬とする。
言語一貫性報酬
r = \frac{k}{N}
ここで、
また、GRPOにおいては各プロンプトに対し複数の出力を生成し、その報酬群
A_i=\frac{r_i-\operatorname{mean}\left(\left\{r_1, r_2, \cdots, r_G\right\}\right)}{\operatorname{std}\left(\left\{r_1, r_2, \cdots, r_G\right\}\right)} \quad \quad \quad \quad (1)
このようにして、出力の中で相対的に優れたものが強化される構造になっており、多様な出力候補の中から期待する出力を学習する仕組みが実現されています。
継続事前学習モデルの言語一貫性評価
この言語一貫性報酬を用いて、Part1で紹介したneoAI独自の継続事前学習モデルでも評価を行いました。評価データはELYZA-task100を使用しました。
その結果、ベースモデルと比較して、独自に学習・マージしたモデルでは日本語単語の割合が大幅に増加しており、継続事前学習によっても言語混同が大きく緩和されることが確認されました。また、設計した言語一貫性報酬が、出力の言語構成を正しく捉え、適切に機能していることも示しています。
(※具体的な生成例については、Part1の結果をご参照ください。)
ここでは、先に述べた言語一貫性報酬を用いてGRPOで学習を行った際の設定と結果について説明します。
-
ベースモデル: 言語混同の傾向が顕著な
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
を採用しました。 -
学習フレームワーク: 軽量なLoRAベースのファインチューニングが可能な
unsloth
を用い、GPUリソースとしてA100(1枚)を使用しました。 - データセット:
p1atdev/gsm8k-ja-slim
というGSM8Kの日本語版を使用しました。
定量評価
下図は言語一貫性報酬の学習中の変化です。値が1に近づくほど出力が完全に日本語で構成されていることを示します。
結果として250step程度で報酬が1に近くなり、言語モデルはこの言語一貫性という報酬が最大化されるように強化学習を通して自らの出力を変化させていることがわかります。
定性評価
以下の表に、学習ステップごとのモデル出力の変化を示します。
ステップが進むにつれて、日本語の割合が着実に増加しており、設計した言語一貫性報酬がモデルに有効に作用していることが確認されました。
しかしながら、学習を継続するにつれ250steps程度で、意味をなさないひらがなの繰り返しが出力される現象が発生しました。これは、単語単位で日本語であるか否かのみを評価対象としていたため、構文的・意味的な妥当性を無視した出力であっても報酬が上昇する構造となっていたためです。その結果、モデルは支離滅裂な出力によって報酬を最大化しようとする、いわゆる報酬ハッキングの状態に陥りました。
このような現象を防ぐためには、以下のような対策が必要であると考えられます:
- 学習の早期停止
- 数学的正答に基づく報酬の重みを強化し、バランスを取る
- GRPOにおけるベースモデルとのKL正則化の強化により、初期出力分布からの乖離を抑える
Training Steps | 生成結果の一部(グレーが日本語と判断されたもの) |
---|---|
10steps(Reward=0.475) | 首先、 我需要计算Benenson先生购买的总支出金 额。 他购买了12枚チケット、 每枚40 卢比、 因此的总费用是12 乘以40、 等于480 卢比。 接下来、Benenson先生购买了12枚、 超过10枚、 因此他获得了额外的5%折 扣。 这里、 我需要计算在10枚以内部分的费用、 以及超过10枚 的部分的费用。 对于前10枚、 每枚40卢比、 所以10枚 的费用是10 乘以40、 等于400 卢比。
|
100steps(Rewards=0.601) | 首先、 我需要理解用户的问题。 用户提供了过去5年 的7月4日 的华盛顿D.C.的最高和平均气温数据、要求计算这5年 间的平均 气温。 用户提供 的数据是:-2020年:90度-2019年:90度-2018年:90度-2017年:79度-2016年:71度 我注意到、2020年、2019年 和2018年 都是90度、 而2017年 和2016年 分别低于这个数值。 为了计算平均气温、 我需要将这5年的数据相加、 然后除以5。
|
150steps(Rewards=0.779) |
まず、ユーザーが提供する数値を理解する。ハジさんは1日に4,000ドルの 工作ammunicationistr captionを 需要します。次に、この金は注文の支払い、配送 費、従業員の 給に drowningする。 getInstanceの支払いは1/4 DWと1/3 DCと1/2 DPを使用する。この分 Calculatorを 引出。注文の支払い:4,000の1/4は1,000 美元 -食料:4,000の1/3は Approximately 1,333.33 美元の 徳業員の給:4,000の1/2は2,000 美元加算すると、4,000 - (1,000 + 1,333.33 + 2,000) = 残金は2,666.67 美元2,666.67 美元は注文の支払い。
|
250steps(Rewards=0.976) |
まず、500の高校の生徒を予定 do ing と0とを \nの40の学年とを0の3年をと2の70をとををとをとをとをとをとをとをとをとをとをとをとをととをとをとをとをととをとをとをとをとをとをとをとととをととをととをととをとととをとをとをとをととをととをとととをととをととをと2の0をとをとをとをととをとと
|
本稿では、LLMのReasoning能力向上に効果的とされるGRPOを、「言語混同」という実用上の課題に応用した取り組みを紹介しました。設計した報酬関数により、モデルは出力における言語の一貫性を自律的に学習することが確認され、強化学習によって言語品質を制御可能であるという手応えが得られました。
一方で、学習を継続することで意味を持たない出力(例:無意味なひらがなの繰り返し)が生成されるなど、報酬のハッキングも観測され課題の残る結果となりました。加えて、最近の研究では、言語混合がReasoning性能に寄与する可能性も指摘されており、単純な言語一貫性の強化が常に望ましいとは限らないことにも注意が必要です。
Reasoningモデルの思考過程は、その透明性を高めるだけでなく、実運用における信頼性にも直結する重要な要素です。今後は、言語一貫性だけでなく人間にとって理解可能な思考過程を実現するために、複数の観点からの報酬設計や正則化の導入、他の訓練手法との併用などが求められると考えています。
Views: 0