【検証】画像PDFを検索可能化してRAGデータソースに活用する #rag – Qiita

By インモビ運営局

2025年4月29日

0

11

モバイルモニタースタンド VESAホルダー - マグネット VESA 75 モニタスタンド 10" 10.1 10.5 11 11.6 12 12.5 13.3 13.4 14 15.6 17 17.3 18 18.5 インチ磁石 360度回転置き台 Feising FS07A

(31)

￥4,599 (2025年4月29日 13:12 GMT +09:00 時点 - )

【Amazon.co.jp限定】IKERY USB ハブ Type-c 7-in-1多機能ドッキングステーション HDMI 変換 USB-C/USB-A SD/TFカード 7ポート搭載バスパワー 5Gbps高速転送 3.0 USB HUB PD急速充電タイプC ハブ付コンパクト軽量 iPhone iPad Mac android Windows 等対応アダプター在宅勤務出張便利

(47)

￥849 (2025年4月29日 13:12 GMT +09:00 時点 - )

エレコム電源タップ 6個口 3m 雷ガード個別スイッチほこりシャッター付耐熱 PSE技術基準適合ブラック T-K6A-2630BK

(6425)

￥1,700 (2025年4月29日 13:11 GMT +09:00 時点 - )

【検証】画像PDFを検索可能化してRAGデータソースに活用する #rag - Qiita

【検証】画像PDFを検索可能化してRAGデータソースに活用する #rag – Qiita

モバイルモニタースタンド VESAホルダー - マグネット VESA 75 モニタスタンド 10" 10.1 10.5 11 11.6 12 12.5 13.3 13.4 14 15.6 17 17.3 18 18.5 インチ磁石 360度回転置き台 Feising FS07A

エレコム電源タップ 6個口 3m 雷ガード個別スイッチほこりシャッター付耐熱 PSE技術基準適合ブラック T-K6A-2630BK

ESR 2枚入り iPad 第11/10世代フィルム A16 (11/10.9インチ 2025/2022)専用強化ガラスフィルム 9H スクリーン保護簡単貼り付け自動除塵気泡ゼロ指紋防止傷防止 HD透過度 Apple Pencil対応

NIMASO ガラスフィルム iPad 第11世代（A16） 2025 用/iPad 第10世代 2022 用 10.9インチフイルムガイド枠付き強化ガラス保護フイルムあいぱっど 11世代/10世代対応 NTB22I574 1枚

スピード違反者の車に制限速度超過を物理的に阻止する「インテリジェント・スピード・アシスト(ISA)」を取り付ける法案が可決 – GIGAZINE

Manusを使って、YouTubeのプレイリスト更新通知システムを作る (人間もちょっと頑張る) #JavaScript – Qiita

製造終了する蛍光灯「使い続けたい」根強い意向も – 家電 Watch

返事を書く返事をキャンセル

Most Popular

紛失したApple Watchを“まさかの場所”で発見　思わず吹き出す光景に「どこの家も一緒ですねwww」「ないないじょうず」

【コスプレ】バニーガールから魔法少女、アイドルまで魅惑のキャラに心奪われる！「ニコニコ超会議2025」美女レイヤー7選【写真25枚】

【政治ニュース】菅直人元首相らが桐花大綬章を受章/日ベトナム首脳会談、安保面での協力強化を確認　トランプ関税も協議──政治ニュースライブ（日テレNEWS LIVE）

「Meta AI」が「ChatGPT」や「Gemini」同様の単体アプリに

Recent Comments

EDITOR PICKS

紛失したApple Watchを“まさかの場所”で発見　思わず吹き出す光景に「どこの家も一緒ですねwww」「ないないじょうず」

【コスプレ】バニーガールから魔法少女、アイドルまで魅惑のキャラに心奪われる！「ニコニコ超会議2025」美女レイヤー7選【写真25枚】

【政治ニュース】菅直人元首相らが桐花大綬章を受章/日ベトナム首脳会談、安保面での協力強化を確認　トランプ関税も協議──政治ニュースライブ（日テレNEWS LIVE）

POPULAR POSTS

紛失したApple Watchを“まさかの場所”で発見　思わず吹き出す光景に「どこの家も一緒ですねwww」「ないないじょうず」

【コスプレ】バニーガールから魔法少女、アイドルまで魅惑のキャラに心奪われる！「ニコニコ超会議2025」美女レイヤー7選【写真25枚】

【政治ニュース】菅直人元首相らが桐花大綬章を受章/日ベトナム首脳会談、安保面での協力強化を確認　トランプ関税も協議──政治ニュースライブ（日テレNEWS LIVE）

POPULAR CATEGORY

ABOUT US

FOLLOW US

【検証】画像PDFを検索可能化してRAGデータソースに活用する #rag – Qiita

この記事について

問題意識

検証スタート

検証で確かめること

検証に使用するドキュメント

検証において使用したpythonスクリプト

① pythonライブラリ「OCRmyPDF」を使ってOCR

OCRmyPDFとは

手順1 ocrmypdfライブラリをインストール

手順2 プログラムから呼び出す

② Google CloudのOCRサービス「Document AI」を使ってOCRを行い、JSONファイルに保存

Document AIとは

手順1.Document AI ToolBoxを用いて、画像PDFをhocr形式に変換する

共有:

返事を書く 返事をキャンセル

Most Popular

Recent Comments

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US

返事を書く返事をキャンセル