🔎 PDF OCR

スキャンPDFからテキストを抽出 — 100以上の言語に対応、ブラウザ完結

🔒 画像がデバイスの外に出ることはありません。 すべての処理はtesseract.js(WASM)+ pdf-libを使用してブラウザ内でローカルに行われます。アップロード、サーバー、追跡は一切ありません。

特長

  • 100以上の言語 — 英語・中国語・スペイン語・アラビア語・日本語など多数の言語のテキストを認識 — Tesseractベース。
  • 検索可能なPDF出力 — 見えないテキストレイヤーを追加し、スキャン画像の見た目はそのままで検索・コピーを可能にします。
  • プレーンテキスト書き出し — 抽出テキストを.txtファイルとして書き出し、後続処理に利用できます。
  • 100%プライベート — OCRはWASM版Tesseractを用いてブラウザ内で実行 — スキャンが端末から出ることはありません。

仕組み

  1. スキャンPDFをアップロード — スキャンした文書をページにドロップします。
  2. 言語を選択 — 精度を最適化するため、文書の主言語を選びます。
  3. OCRを実行 — 「OCR実行」をクリック — 1ページあたり1〜10秒で処理されます。
  4. ダウンロード — 検索可能なPDF、または抽出した.txtファイルを保存します。

活用例

  • 古いスキャン契約書を検索可能にする
  • 経費精算用にレシートからテキストを抽出
  • スキャンした書籍ページを編集可能なテキストに変換
  • キーワード検索のためにアーカイブ資料をデジタル化

よくある質問

OCRの精度はどの程度ですか?

鮮明でコントラストの高いスキャンでは非常に高精度です。手書き・ぼやけた画像・極小フォントでは精度が下がります。

処理時間はどのくらいですか?

端末や画像の複雑さにもよりますが、通常1ページあたり1〜10秒です。

PDFはアップロードされますか?

いいえ。TesseractはWebAssemblyでブラウザ内で実行されます — アップロードは一切ありません。

複数言語を同時にOCRできますか?

はい。関連する言語をすべて選択すると、Tesseractがすべての言語とのマッチを試みます。

検索可能なPDFとプレーンテキスト出力の違いは?

検索可能なPDFは元のスキャン画像を視覚的にそのまま保持し、上に見えないテキストレイヤーを重ねて検索・コピーを可能にします。プレーンテキストは認識された単語のみを書き出します。

関連ツール