← 所有文章

2026 年 OCR 實測對比 — Tesseract、Google Vision、ChatGPT、Apple Live Text(真實準確率資料)

2026-05-22

OCR — Optical Character Recognition,把圖片裡的文字轉成真正可編輯的文字 — 以前體驗很差。我還記得 2008 年掃教科書頁面,軟體輸出的全是亂碼。

到了 2026 年,它好了。有時候好到嚇人。但營銷說辭跟現實對不上,所以我自己跑了一遍 — 100 張真實圖片 × 4 款常用工具的基準測試。這篇文章是我發現的。

參與者

100 張圖片,分 5 類各 20 張:

  • 20 張乾淨的印刷文字:書頁、雜誌文章、電腦列印的收據。
  • 20 張手寫文字:4 個不同人的筆記(草書和印刷體)。
  • 20 張截圖:程式碼、終端輸出、網頁、幻燈片。
  • 20 張低光照/模糊照片:昏暗餐廳裡拍的收據、模糊的招牌。
  • 20 張多語言:中文、日文、韓文、阿拉伯文、混合語言文件。

參賽工具:

  1. Tesseract.js — 開源,透過 WebAssembly 在瀏覽器裡跑。這是 ToolKoala 圖片轉文字工具 使用的引擎。
  2. Google Cloud Vision API — Google 的商業 OCR。每 1000 張圖片 1.5 美元。
  3. ChatGPT(GPT-4o vision) — LLM 當 OCR 用。按當前定價約每張 0.01 美元。
  4. Apple Live Text — macOS Sonoma+ 和 iOS 16+ 自帶。硬體支援就免費。

我排除了 ABBYY FineReader(商業,200 美元授權,面向企業)和 Microsoft Azure Vision(按我的經驗跟 Google Cloud Vision 平手)。

測試方法

對每張圖片,我手工錄入了正確答案,然後測量字元錯誤率(CER) — OCR 錯的字元百分比(替換、插入、刪除)。越低越好。CER 低於 5% 一般夠用,低於 1% 優秀。

總體結果(100 張圖,越低越好)

工具 CER 備註
ChatGPT GPT-4o 2.1% 總體明顯最好
Google Cloud Vision 3.4% 各類別最穩定
Apple Live Text 4.8% Apple 生態優秀
Tesseract.js 6.7% 最佳免費/隱私選項

這個總分有誤導性。按類別細分才能看出每個工具的強弱。

乾淨印刷文字(簡單類別)

工具 CER
ChatGPT GPT-4o 0.4%
Google Cloud Vision 0.6%
Apple Live Text 0.8%
Tesseract.js 1.2%

實際使用基本看不出差別。只要輸入是乾淨的印刷文字,任何一款都行。按其他標準選(費用、隱私、速度)。

手寫(困難類別)

工具 CER
ChatGPT GPT-4o 4.1%
Google Cloud Vision 8.2%
Apple Live Text 12.5%
Tesseract.js 23.0%

這裡 LLM 遠遠甩開所有人。ChatGPT 基本就像人一樣"讀"手寫 — 用上下文消除歧義字母。Tesseract.js 做不到這一點,它是字元識別模型,不是語言模型。

如果你的活兒是數字化手寫筆記,ChatGPT 是答案。準確率差距巨大。

截圖和程式碼(有點棘手)

工具 CER
Google Cloud Vision 1.8%
ChatGPT GPT-4o 2.4%(但會加額外評註)
Apple Live Text 2.6%
Tesseract.js 4.5%

ChatGPT 在這裡有個問題:它有時會"好心"加解釋或修正它認為是的筆誤。我需要明確提示"原樣轉錄,包括筆誤,不要解釋或修正"— 即便這樣,三分之一的嘗試還是會偏。

純轉錄截圖,Google Cloud Vision 最乾淨。Tesseract.js 處理程式碼不錯,但遇到終端輸出裡的特殊字元會卡。

低光照和模糊照片

工具 CER
ChatGPT GPT-4o 3.5%
Google Cloud Vision 5.1%
Apple Live Text 7.2%
Tesseract.js 14.0%

LLM 再次勝出,因為它們利用上下文。Tesseract 看到"Iotal"就輸出"Iotal"。ChatGPT 看到收據中間的"Iotal"就輸出"Total"。有時有用,有時錯(比如收據裡真實商品名長得像錯讀)。

多語言

工具 English 簡體中文 日本語 한국어 العربية
ChatGPT GPT-4o 0.4% 1.8% 2.1% 2.4% 3.0%
Google Cloud Vision 0.6% 2.4% 2.0% 2.5% 3.6%
Apple Live Text 0.8% 3.8% 3.5% 5.5% n/a
Tesseract.js 1.2% 8.5% 7.0% 9.0% 11.5%

Tesseract 在 CJK 和阿拉伯文(RTL)上明顯落後。ChatGPT 和 Google Cloud Vision 都不錯,ChatGPT 稍好。

混合語言文件(比如日英幻燈片),ChatGPT 最好,因為它能在文件中間切換語言。Tesseract 需要預選語言組合(我們在 ToolKoala 提供了"English + 簡體中文"這種預設)。

隱私和成本

這裡比純準確率有意思。

工具 隱私 成本(1000 張收據) 離線?
Tesseract.js 僅本地 — 不離開瀏覽器 $0
Apple Live Text 裝置端 $0
Google Cloud Vision 上傳到 Google 約 $1.50
ChatGPT GPT-4o vision 上傳到 OpenAI 約 $10

每月處理 1000 張收據的小生意:

  • ChatGPT API:每月 10 美元,賬單隨影象複雜度上升。
  • Google Cloud Vision:每月 1.5 美元,非常便宜。
  • Tesseract.js 或 Apple Live Text:每月 0 美元。英文/歐洲語言上 Apple 更準;CJK 選對語言預設的話 Tesseract 更準。

對於隱私敏感內容 — 醫療記錄、身份證掃描、財務文件、公司內部截圖 — 無論準確率多高,ChatGPT 和 Google Cloud Vision 都不能用。選項收縮到 Apple Live Text(Mac/iPhone 上單張處理)或 Tesseract.js(需要批處理 / 非 Apple 平臺)。

該選誰

選 ChatGPT GPT-4o 如果:

  • 你數字化手寫,準確率比隱私重要。
  • 量小(少於 100 張),不介意付費。
  • 內容不敏感。

選 Google Cloud Vision 如果:

  • 要便宜地處理 10000+ 張圖片。
  • 整合到後端服務。
  • 內容不敏感。

選 Apple Live Text 如果:

  • 你在 Mac/iPhone 上。
  • 一次處理一張,隨手用。
  • 文字主要是英文、西班牙文、法文、德文或其他主要拉丁字元語言。

Tesseract.js / ToolKoala 如果:

  • 你在意隱私(圖片不離開瀏覽器)。
  • 需要 CJK 或其他非拉丁字元支援,但不想按次付費。
  • 偶爾做批次工作,不想配置 API key。
  • 把 OCR 提供給非技術使用者(瀏覽器工具不用裝也不用註冊)。

Tesseract 的弱點(誠實告訴你)

既然我維護一個基於 Tesseract 的工具,這裡是它已知的弱點,你心裡有數:

  • 手寫:弱。別用 Tesseract 幹這事。
  • 藝術字型:弱。書法、裝飾字型、手繪招牌 — 都有問題。
  • 低解析度圖片:弱。文字高度低於 200 px 就吃力。
  • 混合方向/曲線文字:處理不好。
  • 大幅傾斜的圖片:需要先轉正。

如果你的輸入是上面這些,用 ChatGPT 或 Google Cloud Vision。對於乾淨的印刷文字、零上傳、瀏覽器內跑,Tesseract.js 夠好。

我日常實際用什麼

個人工作流:

  • 手機拍的收據和賬單:Apple Live Text(在 Photos 里長按圖片 → 複製文字)。瞬時,裝置端。
  • YouTube 教程的程式碼截圖ToolKoala 圖片轉文字。英文預設。比從壓縮縮圖裡複製貼上乾淨。
  • 從書的照片裡引用:ToolKoala 或 Apple Live Text。看哪個手邊方便。
  • 手寫筆記(少見):透過桌面 ChatGPT 應用。貼上圖片,問"原樣轉錄,保留換行"。
  • 報稅的批次收據(每年一次):用 Python 指令碼調 Google Cloud Vision,寫過一次然後忘了怎麼寫。

我從沒付過任何專門的 OCR 服務。"日常用裝置端免費 + 難的用 LLM + 批次用 Google Cloud Vision"的組合就夠了。

總結

2026 年的 OCR 不再是一個類別了。至少分三類:

  1. 字元識別(Tesseract、Apple Live Text):快、免費、離線。適合乾淨文字。
  2. 雲 OCR API(Google Vision、AWS Textract、Azure):可擴充套件、按圖便宜。適合批次。
  3. LLM 當 OCR(GPT-4o、Claude vision、Gemini):貴、慢、但理解上下文。適合困難場景。

按任務選,不按營銷說辭選。如果處理的是不想上傳的東西 — 賬單、身份證、醫療、內部文件、草稿 — 答案在前兩種裝置端選項裡,不在那種當下最被熱炒的 AI 裡。

試試 ToolKoala 的 OCR

如果你現在就想要一個免費、不註冊、不上傳的 OCR 工具,ToolKoala 圖片轉文字 支援:

  • 12+ 種語言,包括英文、中文(簡體+繁體)、日文、韓文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文、義大利文
  • 混合語言模式(English + 簡體中文、English + 日本語)
  • 輸出可就地編輯(複製前修任何 OCR 錯誤)
  • 下載為 .txt

開啟 DevTools → Network 面板驗證零上傳。

相關 ToolKoala 工具

  • PDF OCR — 同樣的 Tesseract 引擎,但是按頁處理整個 PDF
  • PDF 轉文字 — 用於已有可選文字的 PDF(不需要 OCR)
  • 字數統計 — 把 OCR 結果粘進來獲取統計
  • 大小寫轉換 — 清理 OCR 輸出的大小寫