ホームニューステックニュースneoAI 日本語Reasoning Model の開発 Part 2 言語混同の低減

neoAI 日本語Reasoning Model の開発 Part 2 言語混同の低減

2025年7月27日

0

Part 1では、日本語Reasoning Modelの重要性と、継続事前学習を用いた開発手法についてご紹介しました。今回は、Reasoning Modelが直面する課題の一つである「言語混同」に焦点を当て、強化学習（Reinforcement Learning: RL）を用いたその解決アプローチについて深掘りします。

https://zenn.dev/neoai/articles/1670bd029093b0
近年、OpenAIのo1シリーズやDeepSeek-R1のようなReasoning Modelは、その優れた論理的思考能力で注目を集めています。しかし、これらのモデルには共通の課題が存在します。それは、思考過程において、複数の言語が混在する「言語混同」という現象です。

 観測されている言語混同の事例この言語混同は、様々な場面で観測されていますが、その原因や効果的な対処法については、依然として十分に解明されていません。以下に、近年報告されている代表的な事例を紹介します。

DeepSeek-R1: 強化学習で高性能なReasoning Modelを構築したDeepSeek-R1も、論文で言語混同の問題に言及し、これを抑制するための報酬設計を導入していることが知られています。 (具体的な手法の詳細は公表されていません。）またこの問題はこのReasoning Modelを分析する論文でもLanguage Mixingとして取り上げられています。

API提供LLM: Google Geminiのthinkingモードでも、ユーザーから日本語と他言語が混ざるという報告がされています。

オープンLLM: Abejaさんが公開しているQwenベースのモデルでも、他言語の汚染が課題として挙げられています。

 言語混同が引き起こす実用上の問題点
ユーザー体験の低下: 日本語で思考や回答を期待しているユーザーにとって、他言語の混入はユーザー体験を損ね、モデルの信頼性を低下させる要因となりえます。

システム処理への悪影響: 自動処理を行う業務システムにおいて、出力される言語が不規則に混在すると、後段のパースやフィルタリング処理が困難になります。

ドメインごとの品質要求: 特定のドメインや業界では、指定された言語での出力が厳格に求められる場合があります。このような場合、言語の一貫性はモデルの品質を測る上で重要な指標となります。
この言語混同の問題に対して、私たちは 強化学習（RL）における報酬設計の工夫 により改善を図るアプローチを採用しました。Part1で紹介したような継続事前学習も有効な手段ですが、高い学習コストやモデル再訓練の必要性から、今回はより軽量な事後学習的アプローチ（RLによる微調整）に焦点を当てています。
特に注目したのは、DeepSeek-R1においても導入されている、言語一貫性を報酬に組み込む手法です。この方法は、モデルのReasoning能力を維持したまま、出力の言語的整合性を高めることができると期待されます。また、報酬設計が比較的シンプルであることから、導入コストも低く抑えられるという利点があります。

 GRPOの導入と報酬設計今回の学習には、DeepSeek-R1でも活用されているGRPO（Group Relative Policy Optimization）という強化学習アルゴリズムを用いました。GRPOの詳細説明は省きますが、通常のSFT（Supervised Fine-Tuning）とは異なり、明示的な教師出力に従うのではなく、設計された報酬関数を最大化するように、モデル自身が出力を試行錯誤して最適化することを特徴としています。
GRPOフレームワークにおいて、以下の2種類の報酬を組み合わせて学習を行いました：

正解報酬： 通常の数学タスクと同様、最終的な出力が正解かどうかに基づいて報酬を与えます。

言語一貫性報酬： モデルの出力に含まれる単語のうち、目標言語（ここでは日本語）に属する単語の割合を基準として報酬を与えます。日本語の割合が高いほど高い報酬が得られるよう設計することで、言語混同を抑制します。
この言語一貫性報酬の設計にあたっては、Cohereが提案した多言語整合性指標を参考にしました。
具体的には、

形態素解析： MeCabを用いて出力文を単語単位に分割。

言語識別： 軽量な識別モデルにより、各単語が日本語に属するかを判定。

報酬の算出： 出力内の日本語単語数を全単語数で割った比率を言語一貫性報酬とする。
言語一貫性報酬rは次のように定義されます：

r = \frac{k}{N}

ここで、kは日本語と判定された単語数、Nは出力文全体の単語数です。最終的な報酬には、正解判定に基づくスコア（Exact Match）も加算されます。
また、GRPOにおいては各プロンプトに対し複数の出力を生成し、その報酬群\{r_1,r_2,…,r_G\}に基づいてAdvantageを次のように計算します：

A_i=\frac{r_i-\operatorname{mean}\left(\left\{r_1, r_2, \cdots, r_G\right\}\right)}{\operatorname{std}\left(\left\{r_1, r_2, \cdots, r_G\right\}\right)}       \quad  \quad  \quad \quad (1)

このようにして、出力の中で相対的に優れたものが強化される構造になっており、多様な出力候補の中から期待する出力を学習する仕組みが実現されています。
!
言語一貫性報酬のみだともともと持っていたReasoning性能を下げたり簡単な報酬ハッキングを行う可能性があると考え、数学タスクの正解報酬も組み合わせています。
また、今回の手法では日本語文中の自然なアルファベットや記号が日本語でないと判定されることがあります。本来はLLMによる柔軟な判定が望ましいですが、計算コストの観点から軽量な手法を採用しました。

 継続事前学習モデルの言語一貫性評価この言語一貫性報酬を用いて、Part1で紹介したneoAI独自の継続事前学習モデルでも評価を行いました。評価データはELYZA-task100を使用しました。
その結果、ベースモデルと比較して、独自に学習・マージしたモデルでは日本語単語の割合が大幅に増加しており、継続事前学習によっても言語混同が大きく緩和されることが確認されました。また、設計した言語一貫性報酬が、出力の言語構成を正しく捉え、適切に機能していることも示しています。
（※具体的な生成例については、Part1の結果をご参照ください。）
ここでは、先に述べた言語一貫性報酬を用いてGRPOで学習を行った際の設定と結果について説明します。

ベースモデル: 言語混同の傾向が顕著なdeepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B を採用しました。

学習フレームワーク: 軽量なLoRAベースのファインチューニングが可能な unsloth を用い、GPUリソースとしてA100（1枚）を使用しました。
データセット：p1atdev/gsm8k-ja-slim というGSM8Kの日本語版を使用しました。

 定量評価下図は言語一貫性報酬の学習中の変化です。値が1に近づくほど出力が完全に日本語で構成されていることを示します。
結果として250step程度で報酬が1に近くなり、言語モデルはこの言語一貫性という報酬が最大化されるように強化学習を通して自らの出力を変化させていることがわかります。
!
GRPOでは、各出力に対応する報酬から、そのグループ内の平均報酬を引き、さらに標準偏差で割ることでAdvantageを計算していました（式1参考）。この正規化によって、出力ごとの相対的な良し悪しを捉えるのが目的です。
しかし、このときグループ内の報酬にばらつき（= 標準偏差）がないと、Advantageがほとんど0になってしまい、学習が進まなくなります。そのため、学習が進むにつれて報酬に十分なばらつきが生まれるよう、ハイパーパラメータを慎重に調整する必要がありました。

 定性評価以下の表に、学習ステップごとのモデル出力の変化を示します。
ステップが進むにつれて、日本語の割合が着実に増加しており、設計した言語一貫性報酬がモデルに有効に作用していることが確認されました。
しかしながら、学習を継続するにつれ250steps程度で、意味をなさないひらがなの繰り返しが出力される現象が発生しました。これは、単語単位で日本語であるか否かのみを評価対象としていたため、構文的・意味的な妥当性を無視した出力であっても報酬が上昇する構造となっていたためです。その結果、モデルは支離滅裂な出力によって報酬を最大化しようとする、いわゆる報酬ハッキングの状態に陥りました。
このような現象を防ぐためには、以下のような対策が必要であると考えられます：
学習の早期停止
数学的正答に基づく報酬の重みを強化し、バランスを取る
GRPOにおけるベースモデルとのKL正則化の強化により、初期出力分布からの乖離を抑える

Training Steps
生成結果の一部（グレーが日本語と判断されたもの）

10steps(Reward=0.475)
首先、我需要计算Benenson先生购买的总支出金额。他购买了12枚チケット、每枚40卢比、因此的总费用是12乘以40、等于480卢比。接下来、Benenson先生购买了12枚、超过10枚、因此他获得了额外的5％折扣。这里、我需要计算在10枚以内部分的费用、以及超过10枚的部分的费用。对于前10枚、每枚40卢比、所以10枚的费用是10乘以40、等于400卢比。

100steps(Rewards=0.601)
首先、我需要理解用户的问题。用户提供了过去5年的7月4日的华盛顿D.C.的最高和平均气温数据、要求计算这5年间的平均气温。用户提供的数据是：-2020年：90度-2019年：90度-2018年：90度-2017年：79度-2016年：71度我注意到、2020年、2019年和2018年都是90度、而2017年和2016年分别低于这个数值。为了计算平均气温、我需要将这5年的数据相加、然后除以5。

150steps(Rewards=0.779)

まず、ユーザーが提供する数値を理解する。ハジさんは1日に4,000ドルの工作ammunicationistr captionを需要します。次に、この金は注文の支払い、配送費、従業員の給にdrowningする。getInstanceの支払いは1/4 DWと1/3 DCと1/2 DPを使用する。この分Calculatorを引出。注文の支払い：4,000の1/4は1,000美元 -食料：4,000の1/3はApproximately 1,333.33美元の徳業員の給：4,000の1/2は2,000美元加算すると、4,000 - (1,000 + 1,333.33 + 2,000) = 残金は2,666.67美元2,666.67美元は注文の支払い。

250steps(Rewards=0.976)

まず、500の高校の生徒を予定 do ing と0とを\nの40の学年とを0の3年をと2の70をとををとをとをとをとをとをとをとをとをとをとをとをととをとをとをとをととをとをとをとをとをとをとをとととをととをととをととをとととをとをとをとをととをととをとととをととをととをと2の0をとをとをとをととをとと

本稿では、LLMのReasoning能力向上に効果的とされるGRPOを、「言語混同」という実用上の課題に応用した取り組みを紹介しました。設計した報酬関数により、モデルは出力における言語の一貫性を自律的に学習することが確認され、強化学習によって言語品質を制御可能であるという手応えが得られました。
一方で、学習を継続することで意味を持たない出力（例：無意味なひらがなの繰り返し）が生成されるなど、報酬のハッキングも観測され課題の残る結果となりました。加えて、最近の研究では、言語混合がReasoning性能に寄与する可能性も指摘されており、単純な言語一貫性の強化が常に望ましいとは限らないことにも注意が必要です。
Reasoningモデルの思考過程は、その透明性を高めるだけでなく、実運用における信頼性にも直結する重要な要素です。今後は、言語一貫性だけでなく人間にとって理解可能な思考過程を実現するために、複数の観点からの報酬設計や正則化の導入、他の訓練手法との併用などが求められると考えています。

Training Steps	生成結果の一部（グレーが日本語と判断されたもの）
10steps(Reward=0.475)	首先`、`我需要计算Benenson先生购买的总支`出金`额`。`他购买了`12枚チケット、`每`枚40`卢比`、`因此的总费用是`12`乘以`40、`等于`480`卢比`。`接下来、Benenson先生购买了`12枚、`超过`10枚、`因此他获得了额外的`5％折`扣`。`这里`、`我需要计算在10枚以内部分的费用`、`以及超过`10枚`的部分的费用`。`对于前`10枚、`每枚40卢比`、`所以`10枚`的费用是`10`乘以`40、`等于`400`卢比`。`
100steps(Rewards=0.601)	首先`、`我需要理解用户的问题`。`用户提供了过去`5年`的`7月4日`的华盛顿D.C.的最高和平均气温数据、要求计算这`5年`间的`平均`气温`。`用户`提供`的数据是`：-2020年：90度-2019年：90度-2018年：90度-2017年：79度-2016年：71度`我注意到`、2020年、2019年`和`2018年`都是`90度、`而`2017年`和`2016年`分别低于这个数值`。`为了计算平均气温`、`我需要将这5年的数据相加`、`然后除以5`。`
150steps(Rewards=0.779)	`まず、ユーザーが提供する数値を理解する。ハジさんは1日に4,000ドルの`工作ammunicationistr caption`を`需要`します。次に、この金は注文の支払い、配送`費`、従業員の`給`に`drowning`する。`getInstance`の支払いは1/4` DW`と1/3` DC`と1/2` DP`を使用する。この分`Calculator`を`引出`。注文の支払い：4,000の1/4は1,000`美元 `-食料：4,000の1/3は`Approximately `1,333.33`美元`の`徳業員`の給：4,000の1/2は2,000`美元`加算すると、4,000 - (1,000 + 1,333.33 + 2,000) = 残金は2,666.67`美元`2,666.67`美元`は注文の支払い。`
250steps(Rewards=0.976)	`まず、500の高校の生徒を予定` do ing `と0とを`\n`の40の学年とを0の3年をと2の70をとををとをとをとをとをとをとをとをとをとをとをとをととをとをとをとをととをとをとをとをとをとをとをとととをととをととをととをとととをとをとをとをととをととをとととをととをととをと2の0をとをとをとをととをとと`

Source link

返事を書く返事をキャンセル

あなたのコメントを入力してください。

ここにあなたの名前を入力してください

間違ったメールアドレスを入力しました。

ここにあなたのEメールアドレスを入力してください

neoAI 日本語Reasoning Model の開発 Part 2 言語混同の低減

観測されている言語混同の事例

言語混同が引き起こす実用上の問題点

GRPOの導入と報酬設計

継続事前学習モデルの言語一貫性評価

定量評価

定性評価

いいね:

関連

「ホロライブゲーマーズ、等身大フィギュア夏WF2025登場！」

リトライ管理はEffect.tsを推奨したい (Effect.ts Schedule)

「立体化3Dツール、自由自在なXYZ軸入れ替え」

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

「無料で楽しむ『NTE』街生活！カフェ経営が意外な本業に！？」

「ホロライブゲーマーズ、等身大フィギュア夏WF2025登場！」

リトライ管理はEffect.tsを推奨したい (Effect.ts Schedule)

neoAI 日本語Reasoning Model の開発 Part 2 言語混同の低減

観測されている言語混同の事例

言語混同が引き起こす実用上の問題点

GRPOの導入と報酬設計

継続事前学習モデルの言語一貫性評価

定量評価

定性評価

共有:

いいね:

関連

「ホロライブゲーマーズ、等身大フィギュア夏WF2025登場！」

リトライ管理はEffect.tsを推奨したい (Effect.ts Schedule)

「立体化3Dツール、自由自在なXYZ軸入れ替え」

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル