2026 年 OCR 實測對比 — Tesseract、Google Vision、ChatGPT、Apple Live Text（真實準確率資料）

Q: OCR 需要上傳我的圖片嗎？

ToolKoala 的[圖片轉文字](/image-to-text/)用 Tesseract.js 完全在你瀏覽器裡跑——不上傳，首次載入後還能離線用。雲端 OCR（Google、ChatGPT）會把你的圖片傳到伺服器。

2026-05-22

OCR — Optical Character Recognition，把圖片裡的文字轉成真正可編輯的文字 — 以前體驗很差。我還記得 2008 年掃教科書頁面，軟體輸出的全是亂碼。

ToolKoala 瀏覽器內 OCR 把文件辨識成可編輯文字

到了 2026 年，它好了。有時候好到嚇人。但營銷說辭跟現實對不上，所以我自己跑了一遍 — 100 張真實圖片 × 4 款常用工具的基準測試。這篇文章是我發現的。

參與者

100 張圖片，分 5 類各 20 張：

20 張乾淨的印刷文字：書頁、雜誌文章、電腦列印的收據。
20 張手寫文字：4 個不同人的筆記（草書和印刷體）。
20 張截圖：程式碼、終端輸出、網頁、幻燈片。
20 張低光照/模糊照片：昏暗餐廳裡拍的收據、模糊的招牌。
20 張多語言：中文、日文、韓文、阿拉伯文、混合語言文件。

參賽工具：

Tesseract.js — 開源，透過 WebAssembly 在瀏覽器裡跑。這是 ToolKoala 圖片轉文字工具使用的引擎。
Google Cloud Vision API — Google 的商業 OCR。每 1000 張圖片 1.5 美元。
ChatGPT（GPT-4o vision） — LLM 當 OCR 用。按當前定價約每張 0.01 美元。
Apple Live Text — macOS Sonoma+ 和 iOS 16+ 自帶。硬體支援就免費。

我排除了 ABBYY FineReader（商業，200 美元授權，面向企業）和 Microsoft Azure Vision（按我的經驗跟 Google Cloud Vision 平手）。

測試方法

對每張圖片，我手工錄入了正確答案，然後測量字元錯誤率（CER） — OCR 錯的字元百分比（替換、插入、刪除）。越低越好。CER 低於 5% 一般夠用，低於 1% 優秀。

總體結果（100 張圖，越低越好）

工具	CER	備註
ChatGPT GPT-4o	2.1%	總體明顯最好
Google Cloud Vision	3.4%	各類別最穩定
Apple Live Text	4.8%	Apple 生態優秀
Tesseract.js	6.7%	最佳免費/隱私選項

這個總分有誤導性。按類別細分才能看出每個工具的強弱。

乾淨印刷文字（簡單類別）

工具	CER
ChatGPT GPT-4o	0.4%
Google Cloud Vision	0.6%
Apple Live Text	0.8%
Tesseract.js	1.2%

實際使用基本看不出差別。只要輸入是乾淨的印刷文字，任何一款都行。按其他標準選（費用、隱私、速度）。

手寫（困難類別）

工具	CER
ChatGPT GPT-4o	4.1%
Google Cloud Vision	8.2%
Apple Live Text	12.5%
Tesseract.js	23.0%

這裡 LLM 遠遠甩開所有人。ChatGPT 基本就像人一樣"讀"手寫 — 用上下文消除歧義字母。Tesseract.js 做不到這一點，它是字元識別模型，不是語言模型。

如果你的活兒是數字化手寫筆記，ChatGPT 是答案。準確率差距巨大。

截圖和程式碼（有點棘手）

工具	CER
Google Cloud Vision	1.8%
ChatGPT GPT-4o	2.4%（但會加額外評註）
Apple Live Text	2.6%
Tesseract.js	4.5%

ChatGPT 在這裡有個問題：它有時會"好心"加解釋或修正它認為是的筆誤。我需要明確提示"原樣轉錄，包括筆誤，不要解釋或修正"— 即便這樣，三分之一的嘗試還是會偏。

純轉錄截圖，Google Cloud Vision 最乾淨。Tesseract.js 處理程式碼不錯，但遇到終端輸出裡的特殊字元會卡。

低光照和模糊照片

工具	CER
ChatGPT GPT-4o	3.5%
Google Cloud Vision	5.1%
Apple Live Text	7.2%
Tesseract.js	14.0%

LLM 再次勝出，因為它們利用上下文。Tesseract 看到"Iotal"就輸出"Iotal"。ChatGPT 看到收據中間的"Iotal"就輸出"Total"。有時有用，有時錯（比如收據裡真實商品名長得像錯讀）。

多語言

工具	English	簡體中文	日本語	한국어	العربية
ChatGPT GPT-4o	0.4%	1.8%	2.1%	2.4%	3.0%
Google Cloud Vision	0.6%	2.4%	2.0%	2.5%	3.6%
Apple Live Text	0.8%	3.8%	3.5%	5.5%	n/a
Tesseract.js	1.2%	8.5%	7.0%	9.0%	11.5%

Tesseract 在 CJK 和阿拉伯文（RTL）上明顯落後。ChatGPT 和 Google Cloud Vision 都不錯，ChatGPT 稍好。

混合語言文件（比如日英幻燈片），ChatGPT 最好，因為它能在文件中間切換語言。Tesseract 需要預選語言組合（我們在 ToolKoala 提供了"English + 簡體中文"這種預設）。

隱私和成本

這裡比純準確率有意思。

工具	隱私	成本（1000 張收據）	離線？
Tesseract.js	僅本地 — 不離開瀏覽器	$0	是
Apple Live Text	裝置端	$0	是
Google Cloud Vision	上傳到 Google	約 $1.50	否
ChatGPT GPT-4o vision	上傳到 OpenAI	約 $10	否

每月處理 1000 張收據的小生意：

ChatGPT API：每月 10 美元，賬單隨影象複雜度上升。
Google Cloud Vision：每月 1.5 美元，非常便宜。
Tesseract.js 或 Apple Live Text：每月 0 美元。英文/歐洲語言上 Apple 更準；CJK 選對語言預設的話 Tesseract 更準。

對於隱私敏感內容 — 醫療記錄、身份證掃描、財務文件、公司內部截圖 — 無論準確率多高，ChatGPT 和 Google Cloud Vision 都不能用。選項收縮到 Apple Live Text（Mac/iPhone 上單張處理）或 Tesseract.js（需要批處理 / 非 Apple 平臺）。

該選誰

選 ChatGPT GPT-4o 如果：

你數字化手寫，準確率比隱私重要。
量小（少於 100 張），不介意付費。
內容不敏感。

選 Google Cloud Vision 如果：

要便宜地處理 10000+ 張圖片。
整合到後端服務。
內容不敏感。

選 Apple Live Text 如果：

你在 Mac/iPhone 上。
一次處理一張，隨手用。
文字主要是英文、西班牙文、法文、德文或其他主要拉丁字元語言。

選 Tesseract.js / ToolKoala 如果：

你在意隱私（圖片不離開瀏覽器）。
需要 CJK 或其他非拉丁字元支援，但不想按次付費。
偶爾做批次工作，不想配置 API key。
把 OCR 提供給非技術使用者（瀏覽器工具不用裝也不用註冊）。

Tesseract 的弱點（誠實告訴你）

既然我維護一個基於 Tesseract 的工具，這裡是它已知的弱點，你心裡有數：

手寫：弱。別用 Tesseract 幹這事。
藝術字型：弱。書法、裝飾字型、手繪招牌 — 都有問題。
低解析度圖片：弱。文字高度低於 200 px 就吃力。
混合方向/曲線文字：處理不好。
大幅傾斜的圖片：需要先轉正。

如果你的輸入是上面這些，用 ChatGPT 或 Google Cloud Vision。對於乾淨的印刷文字、零上傳、瀏覽器內跑，Tesseract.js 夠好。

我日常實際用什麼

個人工作流：

手機拍的收據和賬單：Apple Live Text（在 Photos 里長按圖片 → 複製文字）。瞬時，裝置端。
YouTube 教程的程式碼截圖：ToolKoala 圖片轉文字。英文預設。比從壓縮縮圖裡複製貼上乾淨。
從書的照片裡引用：ToolKoala 或 Apple Live Text。看哪個手邊方便。
手寫筆記（少見）：透過桌面 ChatGPT 應用。貼上圖片，問"原樣轉錄，保留換行"。
報稅的批次收據（每年一次）：用 Python 指令碼調 Google Cloud Vision，寫過一次然後忘了怎麼寫。

我從沒付過任何專門的 OCR 服務。"日常用裝置端免費 + 難的用 LLM + 批次用 Google Cloud Vision"的組合就夠了。

總結

2026 年的 OCR 不再是一個類別了。至少分三類：

字元識別（Tesseract、Apple Live Text）：快、免費、離線。適合乾淨文字。
雲 OCR API（Google Vision、AWS Textract、Azure）：可擴充套件、按圖便宜。適合批次。
LLM 當 OCR（GPT-4o、Claude vision、Gemini）：貴、慢、但理解上下文。適合困難場景。

按任務選，不按營銷說辭選。如果處理的是不想上傳的東西 — 賬單、身份證、醫療、內部文件、草稿 — 答案在前兩種裝置端選項裡，不在那種當下最被熱炒的 AI 裡。

試試 ToolKoala 的 OCR

如果你現在就想要一個免費、不註冊、不上傳的 OCR 工具，ToolKoala 圖片轉文字支援：

12+ 種語言，包括英文、中文（簡體+繁體）、日文、韓文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文、義大利文
混合語言模式（English + 簡體中文、English + 日本語）
輸出可就地編輯（複製前修任何 OCR 錯誤）
下載為 .txt

開啟 DevTools → Network 面板驗證零上傳。

常見問題

瀏覽器端 OCR（Tesseract）夠準嗎？ 對印刷文字——收據、截圖、文件——夠準，字元辨識率很高。但對潦草手寫和低對比度掃描件吃力，這類場景雲端 OCR 仍更強。

OCR 需要上傳我的圖片嗎？ ToolKoala 的圖片轉文字用 Tesseract.js 完全在你瀏覽器裡跑——不上傳，首次載入後還能離線用。雲端 OCR（Google、ChatGPT）會把你的圖片傳到伺服器。

支援哪些語言？ 12 種以上，包括英文、簡體和繁體中文、日文、韓文以及主流歐洲語言。上傳前先選好語言辨識最準。