🔎 PDF OCR

从扫描 PDF 中提取文字 — 支持 100+ 种语言，浏览器内运行

🔒 你的图片绝不会离开你的设备。 所有处理都通过 tesseract.js（WASM）+ pdf-lib 在浏览器本地完成。无上传、无服务器、无追踪。

功能特点

100+ 种语言 — 识别英文、中文、西班牙文、阿拉伯文、日文等多种文字 — 由 Tesseract 提供支持。
可搜索 PDF 输出 — 添加隐形文字层 — 扫描件外观不变，但变得可搜索、可复制。
纯文本导出 — 可选将识别出的文字导出为 .txt 文件，便于后续处理。
100% 隐私 — 通过 WASM 版 Tesseract 在浏览器内运行，扫描件绝不离开设备。

使用方法

上传扫描 PDF — 将扫描文档拖到页面上。
选择语言 — 选择文档的主要语言以获得最佳准确度。
运行 OCR — 点击运行 OCR — 每页处理约 1–10 秒。
下载 — 保存可搜索 PDF 或提取出的 .txt 文件。

使用场景

让旧的扫描合同变得可搜索
从票据中提取文字制作报销单
将扫描的书籍页面转为可编辑文本
对存档材料进行数字化，实现关键词检索

常见问题

OCR 准确度如何？

对清晰、高对比度的扫描件准确度很高。手写、模糊图片或极小字体会降低准确度。

需要多长时间？

通常每页 1–10 秒，视设备性能和图像复杂度而定。

会上传我的 PDF 吗？

不会。Tesseract 通过 WebAssembly 在浏览器中运行，不会上传任何内容。

可以同时识别多种语言吗？

可以。选择所有相关语言 — Tesseract 会尝试匹配所有选中的语言。

可搜索 PDF 与纯文本输出有何区别？

可搜索 PDF 保留原扫描图像，并覆盖一层隐形文字层，可搜索/复制。纯文本仅导出识别出的文字。

相关工具

📝 PDF 转 Word — 将 PDF 转为 Word 文档 — 保留版面、字体和图片
🗜️ PDF 压缩 — 三档压缩质量，大幅减小 PDF 文件体积——100% 在浏览器中完成
🔐 PDF 密码保护 — 使用 AES 加密保护 PDF — 禁止打开、打印或编辑
📄 PDF 页面提取 — 将选中的页面另存为新的 PDF — 免费、浏览器内处理、无需上传