2026年のOCR実測比較 — Tesseract、Google Vision、ChatGPT、Apple Live Text の精度数値
2026-05-22
OCR — Optical Character Recognition、画像内の文字を実テキストに変換する技術 — はかつて惨めなものでした。2008年に教科書ページをスキャンして、ソフトウェアが意味不明な文字を吐いていたのを覚えています。
2026年、OCRは優秀になりました。ときに怖いほどに。ですがマーケティングの主張は現実と一致しないので、自分で 4 つの広く使われているツールを 100 枚の実画像でベンチマークしました。これがその結果です。
参加者
100 枚の画像、5 カテゴリ各 20 枚:
- 印刷文字(きれい)20 枚:本のページ、雑誌の記事、PC で印刷された領収書。
- 手書き 20 枚:異なる人 4 人のノートページ(筆記体と活字体)。
- スクリーンショット 20 枚:コード、ターミナル出力、Web ページ、スライド。
- 低照度/ぼやけた写真 20 枚:薄暗い飲食店で撮影した領収書、ぼやけた看板。
- 多言語 20 枚:中国語、日本語、韓国語、アラビア語、混合言語の文書。
参加ツール:
- Tesseract.js — オープンソース、WebAssembly でブラウザ内実行。ToolKoala 画像→テキスト が使っているのがこれ。
- Google Cloud Vision API — Google の商用 OCR。1000 枚あたり 1.5 ドル。
- ChatGPT(GPT-4o vision) — LLM を OCR として使う方法。現在の価格で 1 枚約 0.01 ドル。
- Apple Live Text — macOS Sonoma+ と iOS 16+ に内蔵。ハードウェアがあれば無料。
ABBYY FineReader(商用、200 ドル、企業向け)と Microsoft Azure Vision(私の経験上 Google Cloud Vision とほぼ同等)は除外。
方法
各画像について、私が手動で正解を入力し、文字誤り率(CER) を測定 — OCR が間違えた文字の割合(置換、挿入、削除)。低いほど良い。CER 5% 以下なら一般的に実用的、1% 以下なら優秀。
全体結果(100 枚、CER、低いほど良い)
| ツール | CER | 備考 |
|---|---|---|
| ChatGPT GPT-4o | 2.1% | 全体で明確に最良 |
| Google Cloud Vision | 3.4% | カテゴリ横断で最安定 |
| Apple Live Text | 4.8% | Apple エコシステム画像で優秀 |
| Tesseract.js | 6.7% | 最良の無料/プライベート選択 |
このヘッドラインは誤解を招きます。カテゴリ別の内訳が各ツールの強みと弱みを明らかにします。
きれいな印刷文字(簡単カテゴリ)
| ツール | CER |
|---|---|
| ChatGPT GPT-4o | 0.4% |
| Google Cloud Vision | 0.6% |
| Apple Live Text | 0.8% |
| Tesseract.js | 1.2% |
正直、実用上は区別不能。きれいな印刷文字なら、どれでも問題なし。他の基準(コスト、プライバシー、速度)で選んでください。
手書き(難しいカテゴリ)
| ツール | CER |
|---|---|
| ChatGPT GPT-4o | 4.1% |
| Google Cloud Vision | 8.2% |
| Apple Live Text | 12.5% |
| Tesseract.js | 23.0% |
ここで LLM が他を圧倒します。ChatGPT は基本的に人間と同じように手書きを「読み」ます — 文脈を使って曖昧な文字を判別します。Tesseract.js は根本的にこれができません。文字認識モデルであって言語モデルではないからです。
手書きノートのデジタル化が仕事なら、ChatGPT が答え。精度差は莫大です。
スクリーンショットとコード(やや厄介)
| ツール | CER |
|---|---|
| Google Cloud Vision | 1.8% |
| ChatGPT GPT-4o | 2.4%(ただし余計な説明を追加) |
| Apple Live Text | 2.6% |
| Tesseract.js | 4.5% |
ChatGPT はここで問題:時々「親切に」説明や typo の修正を追加します。「正確に転記、誤字も含めて、説明や修正は不要」と明示しないといけません — それでも 1/3 のケースで逸脱しました。
スクリーンショットの純粋な転記は Google Cloud Vision が最もクリーン。Tesseract.js はコードはまあまあですが、特殊文字を含むターミナル出力で躓きます。
低照度とぼやけた写真
| ツール | CER |
|---|---|
| ChatGPT GPT-4o | 3.5% |
| Google Cloud Vision | 5.1% |
| Apple Live Text | 7.2% |
| Tesseract.js | 14.0% |
LLM が再び勝つ理由は文脈を使うから。Tesseract は "Iotal" を見ると "Iotal" を出力。ChatGPT は領収書の真ん中の "Iotal" を見ると "Total" を出力。便利なこともあれば、間違うこともある(領収書の実商品名が誤読のように見える場合など)。
多言語
| ツール | English | 简体中文 | 日本語 | 한국어 | العربية |
|---|---|---|---|---|---|
| ChatGPT GPT-4o | 0.4% | 1.8% | 2.1% | 2.4% | 3.0% |
| Google Cloud Vision | 0.6% | 2.4% | 2.0% | 2.5% | 3.6% |
| Apple Live Text | 0.8% | 3.8% | 3.5% | 5.5% | n/a |
| Tesseract.js | 1.2% | 8.5% | 7.0% | 9.0% | 11.5% |
Tesseract は CJK と RTL 言語で大きく遅れます。ChatGPT と Google Cloud Vision はどちらも対応良好、ChatGPT がわずかに上。
混合言語文書(例:日英スライド)では、ChatGPT が最良 — 文書の途中で言語を切り替えられるからです。Tesseract は言語の組み合わせを事前選択する必要があります(ToolKoala では「English + 日本語」のようなプリセットを用意)。
プライバシーとコスト
ここが純粋な精度を超えて興味深い部分。
| ツール | プライバシー | コスト(領収書 1000 枚) | オフライン? |
|---|---|---|---|
| Tesseract.js | ローカルのみ — ブラウザを出ない | $0 | はい |
| Apple Live Text | デバイス上 | $0 | はい |
| Google Cloud Vision | Google にアップロード | 約 $1.50 | いいえ |
| ChatGPT GPT-4o vision | OpenAI にアップロード | 約 $10 | いいえ |
月 1000 枚の領収書を処理する小規模ビジネス:
- ChatGPT API:月 10 ドル、画像複雑度で請求額が変動。
- Google Cloud Vision:月 1.5 ドル、非常に安い。
- Tesseract.js または Apple Live Text:月 0 ドル。英語/EU 言語は Apple のほうが正確、CJK は適切な言語プリセットを選べば Tesseract のほうが正確。
プライバシー重視のコンテンツ — 医療記録、ID スキャン、財務書類、社内スクリーンショット — では、精度に関係なく ChatGPT と Google Cloud Vision は除外されます。選択肢は Apple Live Text(Mac/iPhone で 1 枚ずつ処理)か Tesseract.js(バッチ処理 / 非 Apple プラットフォームが必要な場合)に絞られます。
どれを選ぶか
ChatGPT GPT-4o を選ぶ 場合:
- 手書きをデジタル化、精度がプライバシーより重要。
- 小さなバッチ(< 100 枚)で支払いを気にしない。
- コンテンツが機密でない。
Google Cloud Vision を選ぶ 場合:
- 10,000 枚以上の画像を安く処理。
- バックエンドサービスに統合。
- コンテンツが機密でない。
Apple Live Text を選ぶ 場合:
- Mac/iPhone を使用。
- 1 枚ずつカジュアルに処理。
- 主に英語、スペイン語、フランス語、ドイツ語など主要ラテン文字系言語。
Tesseract.js / ToolKoala を選ぶ 場合:
- プライバシーを重視(画像はブラウザを出ない)。
- CJK や非ラテン文字サポートが必要だが、呼び出しごとの支払いをしたくない。
- たまにバッチ作業、API キー設定をしたくない。
- 非技術ユーザーに OCR を提供(ブラウザツールはインストール不要、登録不要)。
Tesseract の正直な弱点
Tesseract ベースのツールをメンテしているので、既知の弱点を正直に:
- 手書き:弱い。Tesseract をこれに使うな。
- デザインフォント:弱い。書道、装飾フォント、手描きの看板 — すべて問題あり。
- 低解像度画像:弱い。文字高 200 px 以下は苦戦。
- 混合方向 / 曲線文字:うまく扱えない。
- 大きく傾いた画像:事前回転が必要。
入力が上記のいずれかなら、ChatGPT か Google Cloud Vision を使ってください。きれいな印刷文字をブラウザでアップロードなしで処理するなら、Tesseract.js は堅実です。
日常的に実際使っているもの
個人のワークフロー:
- スマホで撮った領収書や請求書:Apple Live Text(Photos で画像長押し → テキストをコピー)。瞬時、デバイス上。
- YouTube チュートリアルのコードスクリーンショット:ToolKoala 画像→テキスト。英語プリセット。再圧縮されたサムネからコピペするより断然きれい。
- 本の写真から引用:ToolKoala か Apple Live Text。手近なほう。
- 手書きノート(稀):デスクトップ ChatGPT アプリ。画像を貼り付けて「改行を保持して正確に転記」と頼む。
- 税務準備のための大量領収書(年 1 回):書いた後忘れた Python スクリプトで Google Cloud Vision を呼ぶ。
専用 OCR サービスにお金を払ったことはありません。「カジュアル用途はデバイス上で無料 + 難しいケースは LLM + バッチは Google Cloud Vision」の組み合わせで全部カバーできます。
まとめ
2026 年の OCR はもう単一カテゴリではありません。少なくとも 3 つに分かれます:
- 文字認識(Tesseract、Apple Live Text):速い、無料、オフライン。きれいな文字に良い。
- クラウド OCR API(Google Vision、AWS Textract、Azure):スケーラブル、画像あたり安い。バッチに良い。
- LLM を OCR として(GPT-4o、Claude vision、Gemini):高価、遅い、しかし文脈を理解。難しいケースに最適。
マーケティングではなく、タスクで選んでください。アップロードしたくないもの — 請求書、ID、医療、社内文書、ドラフト — を処理するなら、答えは 2 つのデバイス上の選択肢のどちらかであって、今ハイプされている AI ではありません。
ToolKoala の OCR を試す
無料で登録不要、アップロードなしの OCR ツールが今すぐ必要なら、ToolKoala 画像→テキスト は以下に対応:
- 12+ 言語、英語、中国語(簡体+繁体)、日本語、韓国語、スペイン語、フランス語、ドイツ語、ロシア語、アラビア語、ポルトガル語、イタリア語を含む
- 混合言語モード(English + 简体中文、English + 日本語)
- インライン編集出力(コピー前に OCR エラーを修正)
.txtダウンロード
DevTools → Network タブを開いてアップロードなしを確認できます。
関連 ToolKoala ツール
- PDF OCR — 同じ Tesseract エンジン、ただし PDF 全体をページごとに処理
- PDF → テキスト — すでに選択可能なテキストを持つ PDF 向け(OCR 不要)
- 文字カウンター — OCR 出力を貼り付けて統計取得
- 大文字小文字変換 — OCR 出力の大文字小文字をクリーンアップ