← 一覧へ戻る

2026年のOCR実測比較 — Tesseract、Google Vision、ChatGPT、Apple Live Text の精度数値

2026-05-22

OCR — Optical Character Recognition、画像内の文字を実テキストに変換する技術 — はかつて惨めなものでした。2008年に教科書ページをスキャンして、ソフトウェアが意味不明な文字を吐いていたのを覚えています。

2026年、OCRは優秀になりました。ときに怖いほどに。ですがマーケティングの主張は現実と一致しないので、自分で 4 つの広く使われているツールを 100 枚の実画像でベンチマークしました。これがその結果です。

参加者

100 枚の画像、5 カテゴリ各 20 枚:

  • 印刷文字(きれい)20 枚:本のページ、雑誌の記事、PC で印刷された領収書。
  • 手書き 20 枚:異なる人 4 人のノートページ(筆記体と活字体)。
  • スクリーンショット 20 枚:コード、ターミナル出力、Web ページ、スライド。
  • 低照度/ぼやけた写真 20 枚:薄暗い飲食店で撮影した領収書、ぼやけた看板。
  • 多言語 20 枚:中国語、日本語、韓国語、アラビア語、混合言語の文書。

参加ツール:

  1. Tesseract.js — オープンソース、WebAssembly でブラウザ内実行。ToolKoala 画像→テキスト が使っているのがこれ。
  2. Google Cloud Vision API — Google の商用 OCR。1000 枚あたり 1.5 ドル。
  3. ChatGPT(GPT-4o vision) — LLM を OCR として使う方法。現在の価格で 1 枚約 0.01 ドル。
  4. Apple Live Text — macOS Sonoma+ と iOS 16+ に内蔵。ハードウェアがあれば無料。

ABBYY FineReader(商用、200 ドル、企業向け)と Microsoft Azure Vision(私の経験上 Google Cloud Vision とほぼ同等)は除外。

方法

各画像について、私が手動で正解を入力し、文字誤り率(CER) を測定 — OCR が間違えた文字の割合(置換、挿入、削除)。低いほど良い。CER 5% 以下なら一般的に実用的、1% 以下なら優秀。

全体結果(100 枚、CER、低いほど良い)

ツール CER 備考
ChatGPT GPT-4o 2.1% 全体で明確に最良
Google Cloud Vision 3.4% カテゴリ横断で最安定
Apple Live Text 4.8% Apple エコシステム画像で優秀
Tesseract.js 6.7% 最良の無料/プライベート選択

このヘッドラインは誤解を招きます。カテゴリ別の内訳が各ツールの強みと弱みを明らかにします。

きれいな印刷文字(簡単カテゴリ)

ツール CER
ChatGPT GPT-4o 0.4%
Google Cloud Vision 0.6%
Apple Live Text 0.8%
Tesseract.js 1.2%

正直、実用上は区別不能。きれいな印刷文字なら、どれでも問題なし。他の基準(コスト、プライバシー、速度)で選んでください。

手書き(難しいカテゴリ)

ツール CER
ChatGPT GPT-4o 4.1%
Google Cloud Vision 8.2%
Apple Live Text 12.5%
Tesseract.js 23.0%

ここで LLM が他を圧倒します。ChatGPT は基本的に人間と同じように手書きを「読み」ます — 文脈を使って曖昧な文字を判別します。Tesseract.js は根本的にこれができません。文字認識モデルであって言語モデルではないからです。

手書きノートのデジタル化が仕事なら、ChatGPT が答え。精度差は莫大です。

スクリーンショットとコード(やや厄介)

ツール CER
Google Cloud Vision 1.8%
ChatGPT GPT-4o 2.4%(ただし余計な説明を追加)
Apple Live Text 2.6%
Tesseract.js 4.5%

ChatGPT はここで問題:時々「親切に」説明や typo の修正を追加します。「正確に転記、誤字も含めて、説明や修正は不要」と明示しないといけません — それでも 1/3 のケースで逸脱しました。

スクリーンショットの純粋な転記は Google Cloud Vision が最もクリーン。Tesseract.js はコードはまあまあですが、特殊文字を含むターミナル出力で躓きます。

低照度とぼやけた写真

ツール CER
ChatGPT GPT-4o 3.5%
Google Cloud Vision 5.1%
Apple Live Text 7.2%
Tesseract.js 14.0%

LLM が再び勝つ理由は文脈を使うから。Tesseract は "Iotal" を見ると "Iotal" を出力。ChatGPT は領収書の真ん中の "Iotal" を見ると "Total" を出力。便利なこともあれば、間違うこともある(領収書の実商品名が誤読のように見える場合など)。

多言語

ツール English 简体中文 日本語 한국어 العربية
ChatGPT GPT-4o 0.4% 1.8% 2.1% 2.4% 3.0%
Google Cloud Vision 0.6% 2.4% 2.0% 2.5% 3.6%
Apple Live Text 0.8% 3.8% 3.5% 5.5% n/a
Tesseract.js 1.2% 8.5% 7.0% 9.0% 11.5%

Tesseract は CJK と RTL 言語で大きく遅れます。ChatGPT と Google Cloud Vision はどちらも対応良好、ChatGPT がわずかに上。

混合言語文書(例:日英スライド)では、ChatGPT が最良 — 文書の途中で言語を切り替えられるからです。Tesseract は言語の組み合わせを事前選択する必要があります(ToolKoala では「English + 日本語」のようなプリセットを用意)。

プライバシーとコスト

ここが純粋な精度を超えて興味深い部分。

ツール プライバシー コスト(領収書 1000 枚) オフライン?
Tesseract.js ローカルのみ — ブラウザを出ない $0 はい
Apple Live Text デバイス上 $0 はい
Google Cloud Vision Google にアップロード 約 $1.50 いいえ
ChatGPT GPT-4o vision OpenAI にアップロード 約 $10 いいえ

月 1000 枚の領収書を処理する小規模ビジネス:

  • ChatGPT API:月 10 ドル、画像複雑度で請求額が変動。
  • Google Cloud Vision:月 1.5 ドル、非常に安い。
  • Tesseract.js または Apple Live Text:月 0 ドル。英語/EU 言語は Apple のほうが正確、CJK は適切な言語プリセットを選べば Tesseract のほうが正確。

プライバシー重視のコンテンツ — 医療記録、ID スキャン、財務書類、社内スクリーンショット — では、精度に関係なく ChatGPT と Google Cloud Vision は除外されます。選択肢は Apple Live Text(Mac/iPhone で 1 枚ずつ処理)か Tesseract.js(バッチ処理 / 非 Apple プラットフォームが必要な場合)に絞られます。

どれを選ぶか

ChatGPT GPT-4o を選ぶ 場合:

  • 手書きをデジタル化、精度がプライバシーより重要。
  • 小さなバッチ(< 100 枚)で支払いを気にしない。
  • コンテンツが機密でない。

Google Cloud Vision を選ぶ 場合:

  • 10,000 枚以上の画像を安く処理。
  • バックエンドサービスに統合。
  • コンテンツが機密でない。

Apple Live Text を選ぶ 場合:

  • Mac/iPhone を使用。
  • 1 枚ずつカジュアルに処理。
  • 主に英語、スペイン語、フランス語、ドイツ語など主要ラテン文字系言語。

Tesseract.js / ToolKoala を選ぶ 場合:

  • プライバシーを重視(画像はブラウザを出ない)。
  • CJK や非ラテン文字サポートが必要だが、呼び出しごとの支払いをしたくない。
  • たまにバッチ作業、API キー設定をしたくない。
  • 非技術ユーザーに OCR を提供(ブラウザツールはインストール不要、登録不要)。

Tesseract の正直な弱点

Tesseract ベースのツールをメンテしているので、既知の弱点を正直に:

  • 手書き:弱い。Tesseract をこれに使うな。
  • デザインフォント:弱い。書道、装飾フォント、手描きの看板 — すべて問題あり。
  • 低解像度画像:弱い。文字高 200 px 以下は苦戦。
  • 混合方向 / 曲線文字:うまく扱えない。
  • 大きく傾いた画像:事前回転が必要。

入力が上記のいずれかなら、ChatGPT か Google Cloud Vision を使ってください。きれいな印刷文字をブラウザでアップロードなしで処理するなら、Tesseract.js は堅実です。

日常的に実際使っているもの

個人のワークフロー:

  • スマホで撮った領収書や請求書:Apple Live Text(Photos で画像長押し → テキストをコピー)。瞬時、デバイス上。
  • YouTube チュートリアルのコードスクリーンショットToolKoala 画像→テキスト。英語プリセット。再圧縮されたサムネからコピペするより断然きれい。
  • 本の写真から引用:ToolKoala か Apple Live Text。手近なほう。
  • 手書きノート(稀):デスクトップ ChatGPT アプリ。画像を貼り付けて「改行を保持して正確に転記」と頼む。
  • 税務準備のための大量領収書(年 1 回):書いた後忘れた Python スクリプトで Google Cloud Vision を呼ぶ。

専用 OCR サービスにお金を払ったことはありません。「カジュアル用途はデバイス上で無料 + 難しいケースは LLM + バッチは Google Cloud Vision」の組み合わせで全部カバーできます。

まとめ

2026 年の OCR はもう単一カテゴリではありません。少なくとも 3 つに分かれます:

  1. 文字認識(Tesseract、Apple Live Text):速い、無料、オフライン。きれいな文字に良い。
  2. クラウド OCR API(Google Vision、AWS Textract、Azure):スケーラブル、画像あたり安い。バッチに良い。
  3. LLM を OCR として(GPT-4o、Claude vision、Gemini):高価、遅い、しかし文脈を理解。難しいケースに最適。

マーケティングではなく、タスクで選んでください。アップロードしたくないもの — 請求書、ID、医療、社内文書、ドラフト — を処理するなら、答えは 2 つのデバイス上の選択肢のどちらかであって、今ハイプされている AI ではありません。

ToolKoala の OCR を試す

無料で登録不要、アップロードなしの OCR ツールが今すぐ必要なら、ToolKoala 画像→テキスト は以下に対応:

  • 12+ 言語、英語、中国語(簡体+繁体)、日本語、韓国語、スペイン語、フランス語、ドイツ語、ロシア語、アラビア語、ポルトガル語、イタリア語を含む
  • 混合言語モード(English + 简体中文、English + 日本語)
  • インライン編集出力(コピー前に OCR エラーを修正)
  • .txt ダウンロード

DevTools → Network タブを開いてアップロードなしを確認できます。

関連 ToolKoala ツール