2026 年 OCR 实测对比 — Tesseract、Google Vision、ChatGPT、Apple Live Text(真实准确率数据)
2026-05-22
OCR — Optical Character Recognition,把图片里的文字转成真正可编辑的文字 — 以前体验很差。我还记得 2008 年扫教科书页面,软件输出的全是乱码。
到了 2026 年,它好了。有时候好到吓人。但营销说辞跟现实对不上,所以我自己跑了一遍 — 100 张真实图片 × 4 款常用工具的基准测试。这篇文章是我发现的。
参与者
100 张图片,分 5 类各 20 张:
- 20 张干净的印刷文字:书页、杂志文章、电脑打印的收据。
- 20 张手写文字:4 个不同人的笔记(草书和印刷体)。
- 20 张截图:代码、终端输出、网页、幻灯片。
- 20 张低光照/模糊照片:昏暗餐厅里拍的收据、模糊的招牌。
- 20 张多语言:中文、日文、韩文、阿拉伯文、混合语言文档。
参赛工具:
- Tesseract.js — 开源,通过 WebAssembly 在浏览器里跑。这是 ToolKoala 图片转文字工具 使用的引擎。
- Google Cloud Vision API — Google 的商业 OCR。每 1000 张图片 1.5 美元。
- ChatGPT(GPT-4o vision) — LLM 当 OCR 用。按当前定价约每张 0.01 美元。
- Apple Live Text — macOS Sonoma+ 和 iOS 16+ 自带。硬件支持就免费。
我排除了 ABBYY FineReader(商业,200 美元授权,面向企业)和 Microsoft Azure Vision(按我的经验跟 Google Cloud Vision 平手)。
测试方法
对每张图片,我手工录入了正确答案,然后测量字符错误率(CER) — OCR 错的字符百分比(替换、插入、删除)。越低越好。CER 低于 5% 一般够用,低于 1% 优秀。
总体结果(100 张图,越低越好)
| 工具 | CER | 备注 |
|---|---|---|
| ChatGPT GPT-4o | 2.1% | 总体明显最好 |
| Google Cloud Vision | 3.4% | 各类别最稳定 |
| Apple Live Text | 4.8% | Apple 生态优秀 |
| Tesseract.js | 6.7% | 最佳免费/隐私选项 |
这个总分有误导性。按类别细分才能看出每个工具的强弱。
干净印刷文字(简单类别)
| 工具 | CER |
|---|---|
| ChatGPT GPT-4o | 0.4% |
| Google Cloud Vision | 0.6% |
| Apple Live Text | 0.8% |
| Tesseract.js | 1.2% |
实际使用基本看不出差别。只要输入是干净的印刷文字,任何一款都行。按其他标准选(费用、隐私、速度)。
手写(困难类别)
| 工具 | CER |
|---|---|
| ChatGPT GPT-4o | 4.1% |
| Google Cloud Vision | 8.2% |
| Apple Live Text | 12.5% |
| Tesseract.js | 23.0% |
这里 LLM 远远甩开所有人。ChatGPT 基本就像人一样"读"手写 — 用上下文消除歧义字母。Tesseract.js 做不到这一点,它是字符识别模型,不是语言模型。
如果你的活儿是数字化手写笔记,ChatGPT 是答案。准确率差距巨大。
截图和代码(有点棘手)
| 工具 | CER |
|---|---|
| Google Cloud Vision | 1.8% |
| ChatGPT GPT-4o | 2.4%(但会加额外评注) |
| Apple Live Text | 2.6% |
| Tesseract.js | 4.5% |
ChatGPT 在这里有个问题:它有时会"好心"加解释或修正它认为是的笔误。我需要明确提示"原样转录,包括笔误,不要解释或修正"— 即便这样,三分之一的尝试还是会偏。
纯转录截图,Google Cloud Vision 最干净。Tesseract.js 处理代码不错,但遇到终端输出里的特殊字符会卡。
低光照和模糊照片
| 工具 | CER |
|---|---|
| ChatGPT GPT-4o | 3.5% |
| Google Cloud Vision | 5.1% |
| Apple Live Text | 7.2% |
| Tesseract.js | 14.0% |
LLM 再次胜出,因为它们利用上下文。Tesseract 看到"Iotal"就输出"Iotal"。ChatGPT 看到收据中间的"Iotal"就输出"Total"。有时有用,有时错(比如收据里真实商品名长得像错读)。
多语言
| 工具 | English | 简体中文 | 日本語 | 한국어 | العربية |
|---|---|---|---|---|---|
| ChatGPT GPT-4o | 0.4% | 1.8% | 2.1% | 2.4% | 3.0% |
| Google Cloud Vision | 0.6% | 2.4% | 2.0% | 2.5% | 3.6% |
| Apple Live Text | 0.8% | 3.8% | 3.5% | 5.5% | n/a |
| Tesseract.js | 1.2% | 8.5% | 7.0% | 9.0% | 11.5% |
Tesseract 在 CJK 和阿拉伯文(RTL)上明显落后。ChatGPT 和 Google Cloud Vision 都不错,ChatGPT 稍好。
混合语言文档(比如日英幻灯片),ChatGPT 最好,因为它能在文档中间切换语言。Tesseract 需要预选语言组合(我们在 ToolKoala 提供了"English + 简体中文"这种预设)。
隐私和成本
这里比纯准确率有意思。
| 工具 | 隐私 | 成本(1000 张收据) | 离线? |
|---|---|---|---|
| Tesseract.js | 仅本地 — 不离开浏览器 | $0 | 是 |
| Apple Live Text | 设备端 | $0 | 是 |
| Google Cloud Vision | 上传到 Google | 约 $1.50 | 否 |
| ChatGPT GPT-4o vision | 上传到 OpenAI | 约 $10 | 否 |
每月处理 1000 张收据的小生意:
- ChatGPT API:每月 10 美元,账单随图像复杂度上升。
- Google Cloud Vision:每月 1.5 美元,非常便宜。
- Tesseract.js 或 Apple Live Text:每月 0 美元。英文/欧洲语言上 Apple 更准;CJK 选对语言预设的话 Tesseract 更准。
对于隐私敏感内容 — 医疗记录、身份证扫描、财务文档、公司内部截图 — 无论准确率多高,ChatGPT 和 Google Cloud Vision 都不能用。选项收缩到 Apple Live Text(Mac/iPhone 上单张处理)或 Tesseract.js(需要批处理 / 非 Apple 平台)。
该选谁
选 ChatGPT GPT-4o 如果:
- 你数字化手写,准确率比隐私重要。
- 量小(少于 100 张),不介意付费。
- 内容不敏感。
选 Google Cloud Vision 如果:
- 要便宜地处理 10000+ 张图片。
- 集成到后端服务。
- 内容不敏感。
选 Apple Live Text 如果:
- 你在 Mac/iPhone 上。
- 一次处理一张,随手用。
- 文字主要是英文、西班牙文、法文、德文或其他主要拉丁字符语言。
选 Tesseract.js / ToolKoala 如果:
- 你在意隐私(图片不离开浏览器)。
- 需要 CJK 或其他非拉丁字符支持,但不想按次付费。
- 偶尔做批量工作,不想配置 API key。
- 把 OCR 提供给非技术用户(浏览器工具不用装也不用注册)。
Tesseract 的弱点(诚实告诉你)
既然我维护一个基于 Tesseract 的工具,这里是它已知的弱点,你心里有数:
- 手写:弱。别用 Tesseract 干这事。
- 艺术字体:弱。书法、装饰字体、手绘招牌 — 都有问题。
- 低分辨率图片:弱。文字高度低于 200 px 就吃力。
- 混合方向/曲线文字:处理不好。
- 大幅倾斜的图片:需要先转正。
如果你的输入是上面这些,用 ChatGPT 或 Google Cloud Vision。对于干净的印刷文字、零上传、浏览器内跑,Tesseract.js 够好。
我日常实际用什么
个人工作流:
- 手机拍的收据和账单:Apple Live Text(在 Photos 里长按图片 → 拷贝文字)。瞬时,设备端。
- YouTube 教程的代码截图:ToolKoala 图片转文字。英文预设。比从压缩缩略图里复制粘贴干净。
- 从书的照片里引用:ToolKoala 或 Apple Live Text。看哪个手边方便。
- 手写笔记(少见):通过桌面 ChatGPT 应用。粘贴图片,问"原样转录,保留换行"。
- 报税的批量收据(每年一次):用 Python 脚本调 Google Cloud Vision,写过一次然后忘了怎么写。
我从没付过任何专门的 OCR 服务。"日常用设备端免费 + 难的用 LLM + 批量用 Google Cloud Vision"的组合就够了。
总结
2026 年的 OCR 不再是一个类别了。至少分三类:
- 字符识别(Tesseract、Apple Live Text):快、免费、离线。适合干净文字。
- 云 OCR API(Google Vision、AWS Textract、Azure):可扩展、按图便宜。适合批量。
- LLM 当 OCR(GPT-4o、Claude vision、Gemini):贵、慢、但理解上下文。适合困难场景。
按任务选,不按营销说辞选。如果处理的是不想上传的东西 — 账单、身份证、医疗、内部文档、草稿 — 答案在前两种设备端选项里,不在那种当下最被热炒的 AI 里。
试试 ToolKoala 的 OCR
如果你现在就想要一个免费、不注册、不上传的 OCR 工具,ToolKoala 图片转文字 支持:
- 12+ 种语言,包括英文、中文(简体+繁体)、日文、韩文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文、意大利文
- 混合语言模式(English + 简体中文、English + 日本語)
- 输出可就地编辑(复制前修任何 OCR 错误)
- 下载为
.txt
打开 DevTools → Network 面板验证零上传。