2026 年 OCR 实测对比 — Tesseract、Google Vision、ChatGPT、Apple Live Text（真实准确率数据）

Q: OCR 需要上传我的图片吗？

ToolKoala 的[图片转文字](/image-to-text/)用 Tesseract.js 完全在你浏览器里跑——不上传，首次加载后还能离线用。云端 OCR（Google、ChatGPT）会把你的图片传到服务器。

2026-05-22

OCR — Optical Character Recognition，把图片里的文字转成真正可编辑的文字 — 以前体验很差。我还记得 2008 年扫教科书页面，软件输出的全是乱码。

ToolKoala 浏览器内 OCR 把文档识别成可编辑文字

到了 2026 年，它好了。有时候好到吓人。但营销说辞跟现实对不上，所以我自己跑了一遍 — 100 张真实图片 × 4 款常用工具的基准测试。这篇文章是我发现的。

参与者

100 张图片，分 5 类各 20 张：

20 张干净的印刷文字：书页、杂志文章、电脑打印的收据。
20 张手写文字：4 个不同人的笔记（草书和印刷体）。
20 张截图：代码、终端输出、网页、幻灯片。
20 张低光照/模糊照片：昏暗餐厅里拍的收据、模糊的招牌。
20 张多语言：中文、日文、韩文、阿拉伯文、混合语言文档。

参赛工具：

Tesseract.js — 开源，通过 WebAssembly 在浏览器里跑。这是 ToolKoala 图片转文字工具使用的引擎。
Google Cloud Vision API — Google 的商业 OCR。每 1000 张图片 1.5 美元。
ChatGPT（GPT-4o vision） — LLM 当 OCR 用。按当前定价约每张 0.01 美元。
Apple Live Text — macOS Sonoma+ 和 iOS 16+ 自带。硬件支持就免费。

我排除了 ABBYY FineReader（商业，200 美元授权，面向企业）和 Microsoft Azure Vision（按我的经验跟 Google Cloud Vision 平手）。

测试方法

对每张图片，我手工录入了正确答案，然后测量字符错误率（CER） — OCR 错的字符百分比（替换、插入、删除）。越低越好。CER 低于 5% 一般够用，低于 1% 优秀。

总体结果（100 张图，越低越好）

工具	CER	备注
ChatGPT GPT-4o	2.1%	总体明显最好
Google Cloud Vision	3.4%	各类别最稳定
Apple Live Text	4.8%	Apple 生态优秀
Tesseract.js	6.7%	最佳免费/隐私选项

这个总分有误导性。按类别细分才能看出每个工具的强弱。

干净印刷文字（简单类别）

工具	CER
ChatGPT GPT-4o	0.4%
Google Cloud Vision	0.6%
Apple Live Text	0.8%
Tesseract.js	1.2%

实际使用基本看不出差别。只要输入是干净的印刷文字，任何一款都行。按其他标准选（费用、隐私、速度）。

手写（困难类别）

工具	CER
ChatGPT GPT-4o	4.1%
Google Cloud Vision	8.2%
Apple Live Text	12.5%
Tesseract.js	23.0%

这里 LLM 远远甩开所有人。ChatGPT 基本就像人一样"读"手写 — 用上下文消除歧义字母。Tesseract.js 做不到这一点，它是字符识别模型，不是语言模型。

如果你的活儿是数字化手写笔记，ChatGPT 是答案。准确率差距巨大。

截图和代码（有点棘手）

工具	CER
Google Cloud Vision	1.8%
ChatGPT GPT-4o	2.4%（但会加额外评注）
Apple Live Text	2.6%
Tesseract.js	4.5%

ChatGPT 在这里有个问题：它有时会"好心"加解释或修正它认为是的笔误。我需要明确提示"原样转录，包括笔误，不要解释或修正"— 即便这样，三分之一的尝试还是会偏。

纯转录截图，Google Cloud Vision 最干净。Tesseract.js 处理代码不错，但遇到终端输出里的特殊字符会卡。

低光照和模糊照片

工具	CER
ChatGPT GPT-4o	3.5%
Google Cloud Vision	5.1%
Apple Live Text	7.2%
Tesseract.js	14.0%

LLM 再次胜出，因为它们利用上下文。Tesseract 看到"Iotal"就输出"Iotal"。ChatGPT 看到收据中间的"Iotal"就输出"Total"。有时有用，有时错（比如收据里真实商品名长得像错读）。

多语言

工具	English	简体中文	日本語	한국어	العربية
ChatGPT GPT-4o	0.4%	1.8%	2.1%	2.4%	3.0%
Google Cloud Vision	0.6%	2.4%	2.0%	2.5%	3.6%
Apple Live Text	0.8%	3.8%	3.5%	5.5%	n/a
Tesseract.js	1.2%	8.5%	7.0%	9.0%	11.5%

Tesseract 在 CJK 和阿拉伯文（RTL）上明显落后。ChatGPT 和 Google Cloud Vision 都不错，ChatGPT 稍好。

混合语言文档（比如日英幻灯片），ChatGPT 最好，因为它能在文档中间切换语言。Tesseract 需要预选语言组合（我们在 ToolKoala 提供了"English + 简体中文"这种预设）。

隐私和成本

这里比纯准确率有意思。

工具	隐私	成本（1000 张收据）	离线？
Tesseract.js	仅本地 — 不离开浏览器	$0	是
Apple Live Text	设备端	$0	是
Google Cloud Vision	上传到 Google	约 $1.50	否
ChatGPT GPT-4o vision	上传到 OpenAI	约 $10	否

每月处理 1000 张收据的小生意：

ChatGPT API：每月 10 美元，账单随图像复杂度上升。
Google Cloud Vision：每月 1.5 美元，非常便宜。
Tesseract.js 或 Apple Live Text：每月 0 美元。英文/欧洲语言上 Apple 更准；CJK 选对语言预设的话 Tesseract 更准。

对于隐私敏感内容 — 医疗记录、身份证扫描、财务文档、公司内部截图 — 无论准确率多高，ChatGPT 和 Google Cloud Vision 都不能用。选项收缩到 Apple Live Text（Mac/iPhone 上单张处理）或 Tesseract.js（需要批处理 / 非 Apple 平台）。

该选谁

选 ChatGPT GPT-4o 如果：

你数字化手写，准确率比隐私重要。
量小（少于 100 张），不介意付费。
内容不敏感。

选 Google Cloud Vision 如果：

要便宜地处理 10000+ 张图片。
集成到后端服务。
内容不敏感。

选 Apple Live Text 如果：

你在 Mac/iPhone 上。
一次处理一张，随手用。
文字主要是英文、西班牙文、法文、德文或其他主要拉丁字符语言。

选 Tesseract.js / ToolKoala 如果：

你在意隐私（图片不离开浏览器）。
需要 CJK 或其他非拉丁字符支持，但不想按次付费。
偶尔做批量工作，不想配置 API key。
把 OCR 提供给非技术用户（浏览器工具不用装也不用注册）。

Tesseract 的弱点（诚实告诉你）

既然我维护一个基于 Tesseract 的工具，这里是它已知的弱点，你心里有数：

手写：弱。别用 Tesseract 干这事。
艺术字体：弱。书法、装饰字体、手绘招牌 — 都有问题。
低分辨率图片：弱。文字高度低于 200 px 就吃力。
混合方向/曲线文字：处理不好。
大幅倾斜的图片：需要先转正。

如果你的输入是上面这些，用 ChatGPT 或 Google Cloud Vision。对于干净的印刷文字、零上传、浏览器内跑，Tesseract.js 够好。

我日常实际用什么

个人工作流：

手机拍的收据和账单：Apple Live Text（在 Photos 里长按图片 → 拷贝文字）。瞬时，设备端。
YouTube 教程的代码截图：ToolKoala 图片转文字。英文预设。比从压缩缩略图里复制粘贴干净。
从书的照片里引用：ToolKoala 或 Apple Live Text。看哪个手边方便。
手写笔记（少见）：通过桌面 ChatGPT 应用。粘贴图片，问"原样转录，保留换行"。
报税的批量收据（每年一次）：用 Python 脚本调 Google Cloud Vision，写过一次然后忘了怎么写。

我从没付过任何专门的 OCR 服务。"日常用设备端免费 + 难的用 LLM + 批量用 Google Cloud Vision"的组合就够了。

总结

2026 年的 OCR 不再是一个类别了。至少分三类：

字符识别（Tesseract、Apple Live Text）：快、免费、离线。适合干净文字。
云 OCR API（Google Vision、AWS Textract、Azure）：可扩展、按图便宜。适合批量。
LLM 当 OCR（GPT-4o、Claude vision、Gemini）：贵、慢、但理解上下文。适合困难场景。

按任务选，不按营销说辞选。如果处理的是不想上传的东西 — 账单、身份证、医疗、内部文档、草稿 — 答案在前两种设备端选项里，不在那种当下最被热炒的 AI 里。

试试 ToolKoala 的 OCR

如果你现在就想要一个免费、不注册、不上传的 OCR 工具，ToolKoala 图片转文字支持：

12+ 种语言，包括英文、中文（简体+繁体）、日文、韩文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文、意大利文
混合语言模式（English + 简体中文、English + 日本語）
输出可就地编辑（复制前修任何 OCR 错误）
下载为 .txt

打开 DevTools → Network 面板验证零上传。

常见问题

浏览器端 OCR（Tesseract）够准吗？ 对印刷文字——收据、截图、文档——够准，字符识别率很高。但对潦草手写和低对比度扫描件吃力，这类场景云端 OCR 仍更强。

OCR 需要上传我的图片吗？ ToolKoala 的图片转文字用 Tesseract.js 完全在你浏览器里跑——不上传，首次加载后还能离线用。云端 OCR（Google、ChatGPT）会把你的图片传到服务器。

支持哪些语言？ 12 种以上，包括英文、简体和繁体中文、日文、韩文以及主流欧洲语言。上传前先选好语言识别最准。