ホームニューステックニュースLLMバッチ推論によるドキュメントサイトのメンテナンス効率化 #Databricks - Qiita

LLMバッチ推論によるドキュメントサイトのメンテナンス効率化 #Databricks – Qiita

By インモビ運営局

2025年5月3日

0

3

LLMバッチ推論によるドキュメントサイトのメンテナンス効率化 #Databricks - Qiita

書くのを少し迷いましたが、ユースケースとしては有用だと思いましたのでこちらにまとめます。

大量のテキストに対してLLMをバッチ処理で適用して、効率改善などビジネス上の課題を解決します。

テキストが大量にある
処理内容がLLMに適している(要約、情報抽出、翻訳、内容チェックなど)

Databricksの日本語マニュアルは英語からの機械翻訳がベースとなっています。私を含めて日本人のエンジニア数名でチェックはしているのですが、どうしてもチェック漏れが発生していました。以下の画像のように、英単語があると語順がおかしくなるケースが散見されていました。

新たに翻訳されたページの連絡はもらっているものの、すべてのページの目検をやり続けるには限界があります。

マニュアルページの一覧はサイトマップとして公開されているので、これをクローリングしてDeltaテーブル化します。このテーブルに対してLLMバッチ推論で一括でチェックするようにしました。
プロンプトは以下の通りです。判定結果だけでなく、理由も出すように指示しています。

あなたは日本語が流暢なDatabricksの専門家です。右のDatabrickマニュアルを確認します。日本語としておかしい箇所、特に語順の間違いに注意してください。「SDKDatabricksOAuth」のような空白を含まない英語の羅列に注意してください。語順がおかしい可能性が高いです。固有名詞が英語のままであることは許容しますが、一般用語の翻訳漏れにも注意してください。全体的に日本語としての品質が低い場合にはNG、問題がなければOKを返してください:

判定結果はダッシュボードで確認できるようにしました。

LLMバッチ推論によるドキュメントサイトのメンテナンス効率化 #Databricks – Qiita

いいね:

関連

クリスのコーナー: タイプ – CodePen

Chris のコーナー: ツーライナー – CodePen

クリスのコーナー: タイプ – CodePen

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

#あげあげユーチューバかっちゃんねる #セイキン#ヒカキン #ポケモン #ポケモンza #メガガメノデス

上司にするなら誰がいい?? #youtuber #きまぐれクック #hikakin #すするtv #はじめしゃちょー

悲報…お花収穫装置作ってたらやらかすヒカキンさん… #ヒカマニ #マイクラ #伸びろ #おもしろ #ヒカキン

LLMバッチ推論によるドキュメントサイトのメンテナンス効率化 #Databricks – Qiita

サービングエンドポイントの準備

ノートブック

クローリング

Deltaテーブルに保存

LLMバッチ推論

ジョブの設定

ダッシュボード

はじめてのDatabricks

Databricks無料トライアル

共有:

いいね:

関連

クリスのコーナー: タイプ – CodePen

Chris のコーナー: ツーライナー – CodePen

クリスのコーナー: タイプ – CodePen

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル