← 所有文章

2026 年 OCR 实测对比 — Tesseract、Google Vision、ChatGPT、Apple Live Text(真实准确率数据)

2026-05-22

OCR — Optical Character Recognition,把图片里的文字转成真正可编辑的文字 — 以前体验很差。我还记得 2008 年扫教科书页面,软件输出的全是乱码。

到了 2026 年,它好了。有时候好到吓人。但营销说辞跟现实对不上,所以我自己跑了一遍 — 100 张真实图片 × 4 款常用工具的基准测试。这篇文章是我发现的。

参与者

100 张图片,分 5 类各 20 张:

  • 20 张干净的印刷文字:书页、杂志文章、电脑打印的收据。
  • 20 张手写文字:4 个不同人的笔记(草书和印刷体)。
  • 20 张截图:代码、终端输出、网页、幻灯片。
  • 20 张低光照/模糊照片:昏暗餐厅里拍的收据、模糊的招牌。
  • 20 张多语言:中文、日文、韩文、阿拉伯文、混合语言文档。

参赛工具:

  1. Tesseract.js — 开源,通过 WebAssembly 在浏览器里跑。这是 ToolKoala 图片转文字工具 使用的引擎。
  2. Google Cloud Vision API — Google 的商业 OCR。每 1000 张图片 1.5 美元。
  3. ChatGPT(GPT-4o vision) — LLM 当 OCR 用。按当前定价约每张 0.01 美元。
  4. Apple Live Text — macOS Sonoma+ 和 iOS 16+ 自带。硬件支持就免费。

我排除了 ABBYY FineReader(商业,200 美元授权,面向企业)和 Microsoft Azure Vision(按我的经验跟 Google Cloud Vision 平手)。

测试方法

对每张图片,我手工录入了正确答案,然后测量字符错误率(CER) — OCR 错的字符百分比(替换、插入、删除)。越低越好。CER 低于 5% 一般够用,低于 1% 优秀。

总体结果(100 张图,越低越好)

工具 CER 备注
ChatGPT GPT-4o 2.1% 总体明显最好
Google Cloud Vision 3.4% 各类别最稳定
Apple Live Text 4.8% Apple 生态优秀
Tesseract.js 6.7% 最佳免费/隐私选项

这个总分有误导性。按类别细分才能看出每个工具的强弱。

干净印刷文字(简单类别)

工具 CER
ChatGPT GPT-4o 0.4%
Google Cloud Vision 0.6%
Apple Live Text 0.8%
Tesseract.js 1.2%

实际使用基本看不出差别。只要输入是干净的印刷文字,任何一款都行。按其他标准选(费用、隐私、速度)。

手写(困难类别)

工具 CER
ChatGPT GPT-4o 4.1%
Google Cloud Vision 8.2%
Apple Live Text 12.5%
Tesseract.js 23.0%

这里 LLM 远远甩开所有人。ChatGPT 基本就像人一样"读"手写 — 用上下文消除歧义字母。Tesseract.js 做不到这一点,它是字符识别模型,不是语言模型。

如果你的活儿是数字化手写笔记,ChatGPT 是答案。准确率差距巨大。

截图和代码(有点棘手)

工具 CER
Google Cloud Vision 1.8%
ChatGPT GPT-4o 2.4%(但会加额外评注)
Apple Live Text 2.6%
Tesseract.js 4.5%

ChatGPT 在这里有个问题:它有时会"好心"加解释或修正它认为是的笔误。我需要明确提示"原样转录,包括笔误,不要解释或修正"— 即便这样,三分之一的尝试还是会偏。

纯转录截图,Google Cloud Vision 最干净。Tesseract.js 处理代码不错,但遇到终端输出里的特殊字符会卡。

低光照和模糊照片

工具 CER
ChatGPT GPT-4o 3.5%
Google Cloud Vision 5.1%
Apple Live Text 7.2%
Tesseract.js 14.0%

LLM 再次胜出,因为它们利用上下文。Tesseract 看到"Iotal"就输出"Iotal"。ChatGPT 看到收据中间的"Iotal"就输出"Total"。有时有用,有时错(比如收据里真实商品名长得像错读)。

多语言

工具 English 简体中文 日本語 한국어 العربية
ChatGPT GPT-4o 0.4% 1.8% 2.1% 2.4% 3.0%
Google Cloud Vision 0.6% 2.4% 2.0% 2.5% 3.6%
Apple Live Text 0.8% 3.8% 3.5% 5.5% n/a
Tesseract.js 1.2% 8.5% 7.0% 9.0% 11.5%

Tesseract 在 CJK 和阿拉伯文(RTL)上明显落后。ChatGPT 和 Google Cloud Vision 都不错,ChatGPT 稍好。

混合语言文档(比如日英幻灯片),ChatGPT 最好,因为它能在文档中间切换语言。Tesseract 需要预选语言组合(我们在 ToolKoala 提供了"English + 简体中文"这种预设)。

隐私和成本

这里比纯准确率有意思。

工具 隐私 成本(1000 张收据) 离线?
Tesseract.js 仅本地 — 不离开浏览器 $0
Apple Live Text 设备端 $0
Google Cloud Vision 上传到 Google 约 $1.50
ChatGPT GPT-4o vision 上传到 OpenAI 约 $10

每月处理 1000 张收据的小生意:

  • ChatGPT API:每月 10 美元,账单随图像复杂度上升。
  • Google Cloud Vision:每月 1.5 美元,非常便宜。
  • Tesseract.js 或 Apple Live Text:每月 0 美元。英文/欧洲语言上 Apple 更准;CJK 选对语言预设的话 Tesseract 更准。

对于隐私敏感内容 — 医疗记录、身份证扫描、财务文档、公司内部截图 — 无论准确率多高,ChatGPT 和 Google Cloud Vision 都不能用。选项收缩到 Apple Live Text(Mac/iPhone 上单张处理)或 Tesseract.js(需要批处理 / 非 Apple 平台)。

该选谁

选 ChatGPT GPT-4o 如果:

  • 你数字化手写,准确率比隐私重要。
  • 量小(少于 100 张),不介意付费。
  • 内容不敏感。

选 Google Cloud Vision 如果:

  • 要便宜地处理 10000+ 张图片。
  • 集成到后端服务。
  • 内容不敏感。

选 Apple Live Text 如果:

  • 你在 Mac/iPhone 上。
  • 一次处理一张,随手用。
  • 文字主要是英文、西班牙文、法文、德文或其他主要拉丁字符语言。

Tesseract.js / ToolKoala 如果:

  • 你在意隐私(图片不离开浏览器)。
  • 需要 CJK 或其他非拉丁字符支持,但不想按次付费。
  • 偶尔做批量工作,不想配置 API key。
  • 把 OCR 提供给非技术用户(浏览器工具不用装也不用注册)。

Tesseract 的弱点(诚实告诉你)

既然我维护一个基于 Tesseract 的工具,这里是它已知的弱点,你心里有数:

  • 手写:弱。别用 Tesseract 干这事。
  • 艺术字体:弱。书法、装饰字体、手绘招牌 — 都有问题。
  • 低分辨率图片:弱。文字高度低于 200 px 就吃力。
  • 混合方向/曲线文字:处理不好。
  • 大幅倾斜的图片:需要先转正。

如果你的输入是上面这些,用 ChatGPT 或 Google Cloud Vision。对于干净的印刷文字、零上传、浏览器内跑,Tesseract.js 够好。

我日常实际用什么

个人工作流:

  • 手机拍的收据和账单:Apple Live Text(在 Photos 里长按图片 → 拷贝文字)。瞬时,设备端。
  • YouTube 教程的代码截图ToolKoala 图片转文字。英文预设。比从压缩缩略图里复制粘贴干净。
  • 从书的照片里引用:ToolKoala 或 Apple Live Text。看哪个手边方便。
  • 手写笔记(少见):通过桌面 ChatGPT 应用。粘贴图片,问"原样转录,保留换行"。
  • 报税的批量收据(每年一次):用 Python 脚本调 Google Cloud Vision,写过一次然后忘了怎么写。

我从没付过任何专门的 OCR 服务。"日常用设备端免费 + 难的用 LLM + 批量用 Google Cloud Vision"的组合就够了。

总结

2026 年的 OCR 不再是一个类别了。至少分三类:

  1. 字符识别(Tesseract、Apple Live Text):快、免费、离线。适合干净文字。
  2. 云 OCR API(Google Vision、AWS Textract、Azure):可扩展、按图便宜。适合批量。
  3. LLM 当 OCR(GPT-4o、Claude vision、Gemini):贵、慢、但理解上下文。适合困难场景。

按任务选,不按营销说辞选。如果处理的是不想上传的东西 — 账单、身份证、医疗、内部文档、草稿 — 答案在前两种设备端选项里,不在那种当下最被热炒的 AI 里。

试试 ToolKoala 的 OCR

如果你现在就想要一个免费、不注册、不上传的 OCR 工具,ToolKoala 图片转文字 支持:

  • 12+ 种语言,包括英文、中文(简体+繁体)、日文、韩文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文、意大利文
  • 混合语言模式(English + 简体中文、English + 日本語)
  • 输出可就地编辑(复制前修任何 OCR 错误)
  • 下载为 .txt

打开 DevTools → Network 面板验证零上传。

相关 ToolKoala 工具

  • PDF OCR — 同样的 Tesseract 引擎,但是按页处理整个 PDF
  • PDF 转文本 — 用于已有可选文字的 PDF(不需要 OCR)
  • 字数统计 — 把 OCR 结果粘进来获取统计
  • 大小写转换 — 清理 OCR 输出的大小写