🔎 PDF OCR

从扫描 PDF 中提取文字 — 支持 100+ 种语言,浏览器内运行

🔒 你的图片绝不会离开你的设备。 所有处理都通过 tesseract.js(WASM)+ pdf-lib 在浏览器本地完成。无上传、无服务器、无追踪。

功能特点

  • 100+ 种语言 — 识别英文、中文、西班牙文、阿拉伯文、日文等多种文字 — 由 Tesseract 提供支持。
  • 可搜索 PDF 输出 — 添加隐形文字层 — 扫描件外观不变,但变得可搜索、可复制。
  • 纯文本导出 — 可选将识别出的文字导出为 .txt 文件,便于后续处理。
  • 100% 隐私 — 通过 WASM 版 Tesseract 在浏览器内运行,扫描件绝不离开设备。

使用方法

  1. 上传扫描 PDF — 将扫描文档拖到页面上。
  2. 选择语言 — 选择文档的主要语言以获得最佳准确度。
  3. 运行 OCR — 点击运行 OCR — 每页处理约 1–10 秒。
  4. 下载 — 保存可搜索 PDF 或提取出的 .txt 文件。

使用场景

  • 让旧的扫描合同变得可搜索
  • 从票据中提取文字制作报销单
  • 将扫描的书籍页面转为可编辑文本
  • 对存档材料进行数字化,实现关键词检索

常见问题

OCR 准确度如何?

对清晰、高对比度的扫描件准确度很高。手写、模糊图片或极小字体会降低准确度。

需要多长时间?

通常每页 1–10 秒,视设备性能和图像复杂度而定。

会上传我的 PDF 吗?

不会。Tesseract 通过 WebAssembly 在浏览器中运行,不会上传任何内容。

可以同时识别多种语言吗?

可以。选择所有相关语言 — Tesseract 会尝试匹配所有选中的语言。

可搜索 PDF 与纯文本输出有何区别?

可搜索 PDF 保留原扫描图像,并覆盖一层隐形文字层,可搜索/复制。纯文本仅导出识别出的文字。

相关工具

  • 📝 PDF 转 Word — 将 PDF 转为 Word 文档 — 保留版面、字体和图片
  • 🗜️ PDF 压缩 — 三档压缩质量,大幅减小 PDF 文件体积——100% 在浏览器中完成
  • 🔐 PDF 密码保护 — 使用 AES 加密保护 PDF — 禁止打开、打印或编辑
  • 📄 PDF 页面提取 — 将选中的页面另存为新的 PDF — 免费、浏览器内处理、无需上传