🔎 PDF OCR

從掃描 PDF 擷取文字 — 支援 100+ 種語言,於瀏覽器執行

🔒 你的影像永遠不會離開你的裝置。 所有處理都使用 tesseract.js(WASM)+ pdf-lib 在你的瀏覽器中進行。不上傳、不經伺服器、不追蹤。

功能特色

  • 100+ 種語言 — 以 Tesseract 辨識英文、中文、西班牙文、阿拉伯文、日文等多種語言的文字。
  • 可搜尋 PDF 輸出 — 加入不可見的文字層,讓掃描外觀完全不變,但內容可以搜尋與複製。
  • 純文字匯出 — 可選擇將擷取的文字匯出為 .txt 檔以供後續處理。
  • 100% 私密 — OCR 以 WASM 版 Tesseract 於瀏覽器內執行 — 掃描檔絕不離開您的裝置。

運作方式

  1. 上傳掃描 PDF — 將掃描文件拖放到頁面上。
  2. 選擇語言 — 選擇文件的主要語言以取得最佳辨識準確度。
  3. 執行 OCR — 點擊「執行 OCR」— 每頁約需 1–10 秒。
  4. 下載 — 儲存可搜尋 PDF 或擷取出的 .txt 檔。

使用情境

  • 讓舊掃描合約變成可搜尋
  • 從收據擷取文字以製作費用報告
  • 將掃描的書頁轉為可編輯文字
  • 將封存紙本數位化以便關鍵字搜尋

常見問題

OCR 的準確度如何?

在乾淨且高對比的掃描檔上非常高。對手寫、模糊影像或極小字體,準確度會下降。

需要多久?

視裝置與影像複雜度,通常每頁 1–10 秒。

我的 PDF 會被上傳嗎?

不會。Tesseract 以 WebAssembly 於您的瀏覽器執行 — 沒有任何上傳。

可以同時辨識多種語言嗎?

可以。請選取所有相關語言 — Tesseract 會嘗試全部比對。

可搜尋 PDF 與純文字輸出有何差別?

可搜尋 PDF 會保留原始掃描外觀,並疊加不可見文字層,使搜尋/複製可行;純文字則僅匯出辨識出的文字。

相關工具