ホームニューステックニュースRAGの検索精度を上げる新しいリランキング手法

RAGの検索精度を上げる新しいリランキング手法

2025年4月22日

11

本記事では、RAGの性能を高めるための「REBEL」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。
この記事は、RAGの新手法である「REBEL」の論文について、日本語で簡単にまとめたものです。

    
    
  

    
    
  
https://arxiv.org/abs/2504.07104
今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合は以下の記事もご参考下さい。


https://zenn.dev/knowledgesense/articles/47de9ead8029ba

 ざっくりサマリー
REBEL (RErank BEyond reLevance) は、RAGの精度を上げるための新しい手法です。MicrosoftとScale AIの研究者らによって2025年3月に提案されました。
通常のRAGでは、リランキングという手法がよく使われます。これは何かというと、ベクトル検索で取ってきた文書を「ユーザーの質問との関連性」で並び替え、上位のX件をLLMに渡して、回答生成させるという仕組みです。
しかし、「関連性」だけで並び替えると、RAGの回答精度がイマイチになってしまうことがあります。（例えば、内容が重複した文章・古い文書をLLMに渡してしまう、など。）
そこで、REBELは、単に「関連性」だけでなく、複数の基準 を考慮して文書をリランキングすることで、このような課題を解決します。回答速度は落ちますが、精度は上がります。

 問題意識従来のRAGでは、「LLMに渡す文章」を決める際に、ユーザーの質問との「関連性」を重視し過ぎてしまっている問題がありました。
例えば、大企業の社内データRAGでよくある問題として、「昔のバージョンのファイルがデータベースに残っている」みたいなことがあります。
こうした場合、文章の「意味的な関連性」にしか着目しないと、本当は別で最新ファイルがあったとしても、古いファイルも同じくらい「ユーザーの質問と、意味的に関連している」という判定になります。
すると、極端に言えば「古いファイル」だけがLLMに渡されて、誤回答に繋がる、ということが有り得ます。

 手法
【ユーザーが質問を入力して来たとき】
関連する文書を検索（通常通り）
複数基準の特定
1で取得した文書群と元の質問を基に、「関連性以外でどんな基準を考慮すべきか？」LLMに考えさせる
例えば、「情報の多様性」「新しさ」「信頼性」「具体性」など
複数基準でリランキング
2の基準で文書群をリランキング
最終回答を生成
3でスコアの高い上位の数件をLLMに渡し、最終回答を生成
REBELという手法のキモは、「ユーザーの質問に応じて、動的に文書の評価をする（基準すら動的に決める）」という点です。人間で例えると、イメージとしては、「上司の質問に答えるためにGoogle検索して、上位100件から、上司のニーズに合った数件をピックする。」みたいな感じです。そりゃ、精度高いよね（遅くはなるけど）という感じの手法です。

 成果
既存の関連性のみのリランキング手法よりも、回答品質（Answer Similarity）と文書関連性（Retrieval Precision）の両方で高いスコアを達成
推論時の計算リソースを増やせばRAG性能が上がる、というスケーラビリティを実証
弊社では普段から、エンタープライズ向けにRAGサービスを開発しています。その中で「大企業の文書、似たような文章が多すぎる」という問題があります。類似性が高い文書が多いと、従来のRAGでは精度が低いです。
REBELは、こういう現実のユースケースを解くためにぴったりな手法だと思います。
とはいえ、やはり、この手法の「遅い」という致命的な欠点があります。実装にもよりますが、回答速度が10秒以上遅くなることも有り得ます。ただし、現実世界のユースケースでは「遅くてもいいので正確に回答してほしい」というパターンもあるので、十分、使い所がある手法です。
また、最近は小さい言語モデル（SLM）の回答性能も上がってきています。RABELに小さい（=高速）モデルを使うことも十分可能なので、そうすれば速いけどRAG性能も高い、ということが十分実現可能です。2025年だからこそ、実用に足るようになった手法です。
みなさまが業務でRAGシステムを構築する際も、選択肢として参考にしていただければ幸いです。今後も、RAGの回答精度を上げるような工夫や研究について、記事にしていこうと思います。我々が開発しているサービスはこちら。

Source link

返事を書く返事をキャンセル

あなたのコメントを入力してください。

ここにあなたの名前を入力してください

間違ったメールアドレスを入力しました。

ここにあなたのEメールアドレスを入力してください

RAGの検索精度を上げる新しいリランキング手法

ざっくりサマリー

問題意識

手法

成果

いいね:

関連

愛情を込めて難解な CSS – CodePen

クリスのコーナー: タイプ – CodePen

Chris のコーナー: ツーライナー – CodePen

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

国内向け1位のユーチューバー…#ヒカキン #ヒカマニ #セイキン #セイマニ #国内向け#shorts

3時間あるのおもろい#twitter #伸びろ #hikakin #ヒカキン #shorts

キャラ変するヒカキン

RAGの検索精度を上げる 新しいリランキング手法

ざっくりサマリー

問題意識

手法

成果

共有:

いいね:

関連

愛情を込めて難解な CSS – CodePen

クリスのコーナー: タイプ – CodePen

Chris のコーナー: ツーライナー – CodePen

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

RAGの検索精度を上げる新しいリランキング手法

返事を書く返事をキャンセル