【検証】画像PDFを検索可能化してRAGデータソースに活用する #rag – Qiita

By インモビ運営局

2025年4月29日

0

11

Logicool G ワイヤレスゲーミングマウス G703h LIGHTSPEED HERO 25Kセンサーエルゴノミクス LIGHTSYNC RGB POWERPLAY 無線充電対応ゲーミングマウス充電式無線 PC windows mac ブラック G703 国内正規品【ファイナルファンタジー XIV 推奨モデル】

(12457)

￥9,900 (2025年4月29日 13:11 GMT +09:00 時点 - )

【Amazon.co.jp限定】バッファロー WiFi ルーター無線 LAN Wi-Fi5 11ac ac1200 866+300Mbps IPv6 WPA3 デュアルバンド日本メーカー【 iPhone 16e / 16 / 15 / 14 / Nintendo Switch / PS5 動作確認済み】エコパッケージ WCR-1166DHPL/N

(488)

￥3,380 (2025年4月29日 13:11 GMT +09:00 時点 - )

ソニーゲーミングイヤホン INZONE Buds:WF-G700N Fnatic監修 / 完全ワイヤレス / 低遅延2.4GHzワイヤレス接続 USBType-Cトランシーバー同梱 / LE Audio対応 / アクティブノイズキャンセリング / 立体音響 / 最大約24時間バッテリー / 急速充電 / マイク付き / PS5 スマホ PC Switch ホワイト

(774)

￥27,000 (2025年4月29日 13:12 GMT +09:00 時点 - )

【検証】画像PDFを検索可能化してRAGデータソースに活用する #rag - Qiita

【検証】画像PDFを検索可能化してRAGデータソースに活用する #rag – Qiita

Logicool G ワイヤレスゲーミングマウス G703h LIGHTSPEED HERO 25Kセンサーエルゴノミクス LIGHTSYNC RGB POWERPLAY 無線充電対応ゲーミングマウス充電式無線 PC windows mac ブラック G703 国内正規品【ファイナルファンタジー XIV 推奨モデル】

【Amazon.co.jp限定】バッファロー WiFi ルーター無線 LAN Wi-Fi5 11ac ac1200 866+300Mbps IPv6 WPA3 デュアルバンド日本メーカー【 iPhone 16e / 16 / 15 / 14 / Nintendo Switch / PS5 動作確認済み】エコパッケージ WCR-1166DHPL/N

AnCoo マイクロSDカード 512GB MicroSDXC UHS-I U3 A1 V30対応 4Kプロ動画/GoPro/アクションカメラ用 3防仕様

USB Type C ケーブル【1m+1m+2m+2m/4本】タイプc ケーブル PD対応 60W急速充電】データ転送断線防止高耐久ナイロン iPhone 16 /iPhone 15 / MacBook、iPad Pro/Air、Galaxy、Sony、Pixel Type C機種対応

エンジニア4年生が思う、エンジニアを苦しめるかもしれないマインド、考え方 #初心者 – Qiita

ツヴィリングから真空保存が簡単なボウル登場 – 家電 Watch

AWS完全初心者がJAWS-UGでLT登壇をしてみた話 #プレゼンテーション – Qiita

返事を書く返事をキャンセル

Most Popular

【書評】技術ブログの書き方を教えてくれる本を読んでみた -Writing for Developers-

鈴木実貴子ズ、きのこ帝国のメジャーデビュー日に「春と修羅」カバーMV公開　ズを探せ

『A Game About Penguins』発表。ペンギンになって友達との交流やミニゲームを楽しめるマルチプレイゲーム

腐敗した政府と警察、続く内戦…混沌の中で汚れ仕事をこなせ！民間軍事企業運営シム『Private Military Manager』日本語対応でSteam早期アクセス配信 | Game*Spark

Recent Comments

EDITOR PICKS

【書評】技術ブログの書き方を教えてくれる本を読んでみた -Writing for Developers-

鈴木実貴子ズ、きのこ帝国のメジャーデビュー日に「春と修羅」カバーMV公開　ズを探せ

『A Game About Penguins』発表。ペンギンになって友達との交流やミニゲームを楽しめるマルチプレイゲーム

POPULAR POSTS

【書評】技術ブログの書き方を教えてくれる本を読んでみた -Writing for Developers-

鈴木実貴子ズ、きのこ帝国のメジャーデビュー日に「春と修羅」カバーMV公開　ズを探せ

『A Game About Penguins』発表。ペンギンになって友達との交流やミニゲームを楽しめるマルチプレイゲーム

POPULAR CATEGORY

ABOUT US

FOLLOW US

【検証】画像PDFを検索可能化してRAGデータソースに活用する #rag – Qiita

この記事について

問題意識

検証スタート

検証で確かめること

検証に使用するドキュメント

検証において使用したpythonスクリプト

① pythonライブラリ「OCRmyPDF」を使ってOCR

OCRmyPDFとは

手順1 ocrmypdfライブラリをインストール

手順2 プログラムから呼び出す

② Google CloudのOCRサービス「Document AI」を使ってOCRを行い、JSONファイルに保存

Document AIとは

手順1.Document AI ToolBoxを用いて、画像PDFをhocr形式に変換する

共有:

返事を書く 返事をキャンセル

Most Popular

Recent Comments

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY

ABOUT US

FOLLOW US

返事を書く返事をキャンセル