2026 年 OCR 實測對比 — Tesseract、Google Vision、ChatGPT、Apple Live Text(真實準確率資料)
2026-05-22
OCR — Optical Character Recognition,把圖片裡的文字轉成真正可編輯的文字 — 以前體驗很差。我還記得 2008 年掃教科書頁面,軟體輸出的全是亂碼。
到了 2026 年,它好了。有時候好到嚇人。但營銷說辭跟現實對不上,所以我自己跑了一遍 — 100 張真實圖片 × 4 款常用工具的基準測試。這篇文章是我發現的。
參與者
100 張圖片,分 5 類各 20 張:
- 20 張乾淨的印刷文字:書頁、雜誌文章、電腦列印的收據。
- 20 張手寫文字:4 個不同人的筆記(草書和印刷體)。
- 20 張截圖:程式碼、終端輸出、網頁、幻燈片。
- 20 張低光照/模糊照片:昏暗餐廳裡拍的收據、模糊的招牌。
- 20 張多語言:中文、日文、韓文、阿拉伯文、混合語言文件。
參賽工具:
- Tesseract.js — 開源,透過 WebAssembly 在瀏覽器裡跑。這是 ToolKoala 圖片轉文字工具 使用的引擎。
- Google Cloud Vision API — Google 的商業 OCR。每 1000 張圖片 1.5 美元。
- ChatGPT(GPT-4o vision) — LLM 當 OCR 用。按當前定價約每張 0.01 美元。
- Apple Live Text — macOS Sonoma+ 和 iOS 16+ 自帶。硬體支援就免費。
我排除了 ABBYY FineReader(商業,200 美元授權,面向企業)和 Microsoft Azure Vision(按我的經驗跟 Google Cloud Vision 平手)。
測試方法
對每張圖片,我手工錄入了正確答案,然後測量字元錯誤率(CER) — OCR 錯的字元百分比(替換、插入、刪除)。越低越好。CER 低於 5% 一般夠用,低於 1% 優秀。
總體結果(100 張圖,越低越好)
| 工具 | CER | 備註 |
|---|---|---|
| ChatGPT GPT-4o | 2.1% | 總體明顯最好 |
| Google Cloud Vision | 3.4% | 各類別最穩定 |
| Apple Live Text | 4.8% | Apple 生態優秀 |
| Tesseract.js | 6.7% | 最佳免費/隱私選項 |
這個總分有誤導性。按類別細分才能看出每個工具的強弱。
乾淨印刷文字(簡單類別)
| 工具 | CER |
|---|---|
| ChatGPT GPT-4o | 0.4% |
| Google Cloud Vision | 0.6% |
| Apple Live Text | 0.8% |
| Tesseract.js | 1.2% |
實際使用基本看不出差別。只要輸入是乾淨的印刷文字,任何一款都行。按其他標準選(費用、隱私、速度)。
手寫(困難類別)
| 工具 | CER |
|---|---|
| ChatGPT GPT-4o | 4.1% |
| Google Cloud Vision | 8.2% |
| Apple Live Text | 12.5% |
| Tesseract.js | 23.0% |
這裡 LLM 遠遠甩開所有人。ChatGPT 基本就像人一樣"讀"手寫 — 用上下文消除歧義字母。Tesseract.js 做不到這一點,它是字元識別模型,不是語言模型。
如果你的活兒是數字化手寫筆記,ChatGPT 是答案。準確率差距巨大。
截圖和程式碼(有點棘手)
| 工具 | CER |
|---|---|
| Google Cloud Vision | 1.8% |
| ChatGPT GPT-4o | 2.4%(但會加額外評註) |
| Apple Live Text | 2.6% |
| Tesseract.js | 4.5% |
ChatGPT 在這裡有個問題:它有時會"好心"加解釋或修正它認為是的筆誤。我需要明確提示"原樣轉錄,包括筆誤,不要解釋或修正"— 即便這樣,三分之一的嘗試還是會偏。
純轉錄截圖,Google Cloud Vision 最乾淨。Tesseract.js 處理程式碼不錯,但遇到終端輸出裡的特殊字元會卡。
低光照和模糊照片
| 工具 | CER |
|---|---|
| ChatGPT GPT-4o | 3.5% |
| Google Cloud Vision | 5.1% |
| Apple Live Text | 7.2% |
| Tesseract.js | 14.0% |
LLM 再次勝出,因為它們利用上下文。Tesseract 看到"Iotal"就輸出"Iotal"。ChatGPT 看到收據中間的"Iotal"就輸出"Total"。有時有用,有時錯(比如收據裡真實商品名長得像錯讀)。
多語言
| 工具 | English | 簡體中文 | 日本語 | 한국어 | العربية |
|---|---|---|---|---|---|
| ChatGPT GPT-4o | 0.4% | 1.8% | 2.1% | 2.4% | 3.0% |
| Google Cloud Vision | 0.6% | 2.4% | 2.0% | 2.5% | 3.6% |
| Apple Live Text | 0.8% | 3.8% | 3.5% | 5.5% | n/a |
| Tesseract.js | 1.2% | 8.5% | 7.0% | 9.0% | 11.5% |
Tesseract 在 CJK 和阿拉伯文(RTL)上明顯落後。ChatGPT 和 Google Cloud Vision 都不錯,ChatGPT 稍好。
混合語言文件(比如日英幻燈片),ChatGPT 最好,因為它能在文件中間切換語言。Tesseract 需要預選語言組合(我們在 ToolKoala 提供了"English + 簡體中文"這種預設)。
隱私和成本
這裡比純準確率有意思。
| 工具 | 隱私 | 成本(1000 張收據) | 離線? |
|---|---|---|---|
| Tesseract.js | 僅本地 — 不離開瀏覽器 | $0 | 是 |
| Apple Live Text | 裝置端 | $0 | 是 |
| Google Cloud Vision | 上傳到 Google | 約 $1.50 | 否 |
| ChatGPT GPT-4o vision | 上傳到 OpenAI | 約 $10 | 否 |
每月處理 1000 張收據的小生意:
- ChatGPT API:每月 10 美元,賬單隨影象複雜度上升。
- Google Cloud Vision:每月 1.5 美元,非常便宜。
- Tesseract.js 或 Apple Live Text:每月 0 美元。英文/歐洲語言上 Apple 更準;CJK 選對語言預設的話 Tesseract 更準。
對於隱私敏感內容 — 醫療記錄、身份證掃描、財務文件、公司內部截圖 — 無論準確率多高,ChatGPT 和 Google Cloud Vision 都不能用。選項收縮到 Apple Live Text(Mac/iPhone 上單張處理)或 Tesseract.js(需要批處理 / 非 Apple 平臺)。
該選誰
選 ChatGPT GPT-4o 如果:
- 你數字化手寫,準確率比隱私重要。
- 量小(少於 100 張),不介意付費。
- 內容不敏感。
選 Google Cloud Vision 如果:
- 要便宜地處理 10000+ 張圖片。
- 整合到後端服務。
- 內容不敏感。
選 Apple Live Text 如果:
- 你在 Mac/iPhone 上。
- 一次處理一張,隨手用。
- 文字主要是英文、西班牙文、法文、德文或其他主要拉丁字元語言。
選 Tesseract.js / ToolKoala 如果:
- 你在意隱私(圖片不離開瀏覽器)。
- 需要 CJK 或其他非拉丁字元支援,但不想按次付費。
- 偶爾做批次工作,不想配置 API key。
- 把 OCR 提供給非技術使用者(瀏覽器工具不用裝也不用註冊)。
Tesseract 的弱點(誠實告訴你)
既然我維護一個基於 Tesseract 的工具,這裡是它已知的弱點,你心裡有數:
- 手寫:弱。別用 Tesseract 幹這事。
- 藝術字型:弱。書法、裝飾字型、手繪招牌 — 都有問題。
- 低解析度圖片:弱。文字高度低於 200 px 就吃力。
- 混合方向/曲線文字:處理不好。
- 大幅傾斜的圖片:需要先轉正。
如果你的輸入是上面這些,用 ChatGPT 或 Google Cloud Vision。對於乾淨的印刷文字、零上傳、瀏覽器內跑,Tesseract.js 夠好。
我日常實際用什麼
個人工作流:
- 手機拍的收據和賬單:Apple Live Text(在 Photos 里長按圖片 → 複製文字)。瞬時,裝置端。
- YouTube 教程的程式碼截圖:ToolKoala 圖片轉文字。英文預設。比從壓縮縮圖裡複製貼上乾淨。
- 從書的照片裡引用:ToolKoala 或 Apple Live Text。看哪個手邊方便。
- 手寫筆記(少見):透過桌面 ChatGPT 應用。貼上圖片,問"原樣轉錄,保留換行"。
- 報稅的批次收據(每年一次):用 Python 指令碼調 Google Cloud Vision,寫過一次然後忘了怎麼寫。
我從沒付過任何專門的 OCR 服務。"日常用裝置端免費 + 難的用 LLM + 批次用 Google Cloud Vision"的組合就夠了。
總結
2026 年的 OCR 不再是一個類別了。至少分三類:
- 字元識別(Tesseract、Apple Live Text):快、免費、離線。適合乾淨文字。
- 雲 OCR API(Google Vision、AWS Textract、Azure):可擴充套件、按圖便宜。適合批次。
- LLM 當 OCR(GPT-4o、Claude vision、Gemini):貴、慢、但理解上下文。適合困難場景。
按任務選,不按營銷說辭選。如果處理的是不想上傳的東西 — 賬單、身份證、醫療、內部文件、草稿 — 答案在前兩種裝置端選項裡,不在那種當下最被熱炒的 AI 裡。
試試 ToolKoala 的 OCR
如果你現在就想要一個免費、不註冊、不上傳的 OCR 工具,ToolKoala 圖片轉文字 支援:
- 12+ 種語言,包括英文、中文(簡體+繁體)、日文、韓文、西班牙文、法文、德文、俄文、阿拉伯文、葡萄牙文、義大利文
- 混合語言模式(English + 簡體中文、English + 日本語)
- 輸出可就地編輯(複製前修任何 OCR 錯誤)
- 下載為
.txt
開啟 DevTools → Network 面板驗證零上傳。