🔎 PDF OCR
スキャンPDFからテキストを抽出 — 100以上の言語に対応、ブラウザ完結
🔒 画像がデバイスの外に出ることはありません。 すべての処理はtesseract.js(WASM)+ pdf-libを使用してブラウザ内でローカルに行われます。アップロード、サーバー、追跡は一切ありません。
特長
- 100以上の言語 — 英語・中国語・スペイン語・アラビア語・日本語など多数の言語のテキストを認識 — Tesseractベース。
- 検索可能なPDF出力 — 見えないテキストレイヤーを追加し、スキャン画像の見た目はそのままで検索・コピーを可能にします。
- プレーンテキスト書き出し — 抽出テキストを.txtファイルとして書き出し、後続処理に利用できます。
- 100%プライベート — OCRはWASM版Tesseractを用いてブラウザ内で実行 — スキャンが端末から出ることはありません。
仕組み
- スキャンPDFをアップロード — スキャンした文書をページにドロップします。
- 言語を選択 — 精度を最適化するため、文書の主言語を選びます。
- OCRを実行 — 「OCR実行」をクリック — 1ページあたり1〜10秒で処理されます。
- ダウンロード — 検索可能なPDF、または抽出した.txtファイルを保存します。
活用例
- 古いスキャン契約書を検索可能にする
- 経費精算用にレシートからテキストを抽出
- スキャンした書籍ページを編集可能なテキストに変換
- キーワード検索のためにアーカイブ資料をデジタル化
よくある質問
OCRの精度はどの程度ですか?
鮮明でコントラストの高いスキャンでは非常に高精度です。手書き・ぼやけた画像・極小フォントでは精度が下がります。
処理時間はどのくらいですか?
端末や画像の複雑さにもよりますが、通常1ページあたり1〜10秒です。
PDFはアップロードされますか?
いいえ。TesseractはWebAssemblyでブラウザ内で実行されます — アップロードは一切ありません。
複数言語を同時にOCRできますか?
はい。関連する言語をすべて選択すると、Tesseractがすべての言語とのマッチを試みます。
検索可能なPDFとプレーンテキスト出力の違いは?
検索可能なPDFは元のスキャン画像を視覚的にそのまま保持し、上に見えないテキストレイヤーを重ねて検索・コピーを可能にします。プレーンテキストは認識された単語のみを書き出します。
関連ツール
- 📝 PDFをWordに変換 — PDFをWord文書に変換 — レイアウト・フォント・画像を維持
- 🗜️ PDFを圧縮 — 調整可能な品質レベルでPDFファイルサイズを削減
- 🔐 PDFパスワード保護 — AES暗号化でPDFを保護 — 閲覧・印刷・編集をブロック
- 📄 PDFページ抽出 — 選択したページを新しいPDFとして保存 — 無料、ブラウザ完結、アップロード不要