2026年のOCR実測比較 — Tesseract、Google Vision、ChatGPT、Apple Live Text の精度数値

Q: ブラウザOCR（Tesseract）の精度は十分？

印刷文字——領収書、スクリーンショット、文書——なら十分で、文字精度は高いです。乱雑な手書きや低コントラストのスキャンは苦手で、そこはクラウドOCRが優勢です。

Q: 画像をアップロードせずにOCRできる？

ToolKoala の[画像から文字](/image-to-text/)は Tesseract.js をブラウザ内で完結。アップロードなし、初回読み込み後はオフラインでも動きます。クラウドOCR（Google、ChatGPT）は画像をサーバーに送ります。

Q: 対応言語は？

英語、簡体・繁体中国語、日本語、韓国語、主要な欧州言語など12以上。アップロード前に言語を選ぶと精度が上がります。

2026-05-22

OCR — Optical Character Recognition、画像内の文字を実テキストに変換する技術 — はかつて惨めなものでした。2008年に教科書ページをスキャンして、ソフトウェアが意味不明な文字を吐いていたのを覚えています。

ToolKoala のブラウザ内 OCR が文書をテキストに変換

2026年、OCRは優秀になりました。ときに怖いほどに。ですがマーケティングの主張は現実と一致しないので、自分で 4 つの広く使われているツールを 100 枚の実画像でベンチマークしました。これがその結果です。

参加者

100 枚の画像、5 カテゴリ各 20 枚：

印刷文字（きれい）20 枚：本のページ、雑誌の記事、PC で印刷された領収書。
手書き 20 枚：異なる人 4 人のノートページ（筆記体と活字体）。
スクリーンショット 20 枚：コード、ターミナル出力、Web ページ、スライド。
低照度/ぼやけた写真 20 枚：薄暗い飲食店で撮影した領収書、ぼやけた看板。
多言語 20 枚：中国語、日本語、韓国語、アラビア語、混合言語の文書。

参加ツール：

Tesseract.js — オープンソース、WebAssembly でブラウザ内実行。ToolKoala 画像→テキストが使っているのがこれ。
Google Cloud Vision API — Google の商用 OCR。1000 枚あたり 1.5 ドル。
ChatGPT（GPT-4o vision） — LLM を OCR として使う方法。現在の価格で 1 枚約 0.01 ドル。
Apple Live Text — macOS Sonoma+ と iOS 16+ に内蔵。ハードウェアがあれば無料。

ABBYY FineReader（商用、200 ドル、企業向け）と Microsoft Azure Vision（私の経験上 Google Cloud Vision とほぼ同等）は除外。

方法

各画像について、私が手動で正解を入力し、文字誤り率（CER） を測定 — OCR が間違えた文字の割合（置換、挿入、削除）。低いほど良い。CER 5% 以下なら一般的に実用的、1% 以下なら優秀。

全体結果（100 枚、CER、低いほど良い）

ツール	CER	備考
ChatGPT GPT-4o	2.1%	全体で明確に最良
Google Cloud Vision	3.4%	カテゴリ横断で最安定
Apple Live Text	4.8%	Apple エコシステム画像で優秀
Tesseract.js	6.7%	最良の無料/プライベート選択

このヘッドラインは誤解を招きます。カテゴリ別の内訳が各ツールの強みと弱みを明らかにします。

きれいな印刷文字（簡単カテゴリ）

ツール	CER
ChatGPT GPT-4o	0.4%
Google Cloud Vision	0.6%
Apple Live Text	0.8%
Tesseract.js	1.2%

正直、実用上は区別不能。きれいな印刷文字なら、どれでも問題なし。他の基準（コスト、プライバシー、速度）で選んでください。

手書き（難しいカテゴリ）

ツール	CER
ChatGPT GPT-4o	4.1%
Google Cloud Vision	8.2%
Apple Live Text	12.5%
Tesseract.js	23.0%

ここで LLM が他を圧倒します。ChatGPT は基本的に人間と同じように手書きを「読み」ます — 文脈を使って曖昧な文字を判別します。Tesseract.js は根本的にこれができません。文字認識モデルであって言語モデルではないからです。

手書きノートのデジタル化が仕事なら、ChatGPT が答え。精度差は莫大です。

スクリーンショットとコード（やや厄介）

ツール	CER
Google Cloud Vision	1.8%
ChatGPT GPT-4o	2.4%（ただし余計な説明を追加）
Apple Live Text	2.6%
Tesseract.js	4.5%

ChatGPT はここで問題：時々「親切に」説明や typo の修正を追加します。「正確に転記、誤字も含めて、説明や修正は不要」と明示しないといけません — それでも 1/3 のケースで逸脱しました。

スクリーンショットの純粋な転記は Google Cloud Vision が最もクリーン。Tesseract.js はコードはまあまあですが、特殊文字を含むターミナル出力で躓きます。

低照度とぼやけた写真

ツール	CER
ChatGPT GPT-4o	3.5%
Google Cloud Vision	5.1%
Apple Live Text	7.2%
Tesseract.js	14.0%

LLM が再び勝つ理由は文脈を使うから。Tesseract は "Iotal" を見ると "Iotal" を出力。ChatGPT は領収書の真ん中の "Iotal" を見ると "Total" を出力。便利なこともあれば、間違うこともある（領収書の実商品名が誤読のように見える場合など）。

多言語

ツール	English	简体中文	日本語	한국어	العربية
ChatGPT GPT-4o	0.4%	1.8%	2.1%	2.4%	3.0%
Google Cloud Vision	0.6%	2.4%	2.0%	2.5%	3.6%
Apple Live Text	0.8%	3.8%	3.5%	5.5%	n/a
Tesseract.js	1.2%	8.5%	7.0%	9.0%	11.5%

Tesseract は CJK と RTL 言語で大きく遅れます。ChatGPT と Google Cloud Vision はどちらも対応良好、ChatGPT がわずかに上。

混合言語文書（例：日英スライド）では、ChatGPT が最良 — 文書の途中で言語を切り替えられるからです。Tesseract は言語の組み合わせを事前選択する必要があります（ToolKoala では「English + 日本語」のようなプリセットを用意）。

プライバシーとコスト

ここが純粋な精度を超えて興味深い部分。

ツール	プライバシー	コスト（領収書 1000 枚）	オフライン？
Tesseract.js	ローカルのみ — ブラウザを出ない	$0	はい
Apple Live Text	デバイス上	$0	はい
Google Cloud Vision	Google にアップロード	約 $1.50	いいえ
ChatGPT GPT-4o vision	OpenAI にアップロード	約 $10	いいえ

月 1000 枚の領収書を処理する小規模ビジネス：

ChatGPT API：月 10 ドル、画像複雑度で請求額が変動。
Google Cloud Vision：月 1.5 ドル、非常に安い。
Tesseract.js または Apple Live Text：月 0 ドル。英語/EU 言語は Apple のほうが正確、CJK は適切な言語プリセットを選べば Tesseract のほうが正確。

プライバシー重視のコンテンツ — 医療記録、ID スキャン、財務書類、社内スクリーンショット — では、精度に関係なく ChatGPT と Google Cloud Vision は除外されます。選択肢は Apple Live Text（Mac/iPhone で 1 枚ずつ処理）か Tesseract.js（バッチ処理 / 非 Apple プラットフォームが必要な場合）に絞られます。

どれを選ぶか

ChatGPT GPT-4o を選ぶ 場合：

手書きをデジタル化、精度がプライバシーより重要。
小さなバッチ（< 100 枚）で支払いを気にしない。
コンテンツが機密でない。

Google Cloud Vision を選ぶ 場合：

10,000 枚以上の画像を安く処理。
バックエンドサービスに統合。
コンテンツが機密でない。

Apple Live Text を選ぶ 場合：

Mac/iPhone を使用。
1 枚ずつカジュアルに処理。
主に英語、スペイン語、フランス語、ドイツ語など主要ラテン文字系言語。

Tesseract.js / ToolKoala を選ぶ 場合：

プライバシーを重視（画像はブラウザを出ない）。
CJK や非ラテン文字サポートが必要だが、呼び出しごとの支払いをしたくない。
たまにバッチ作業、API キー設定をしたくない。
非技術ユーザーに OCR を提供（ブラウザツールはインストール不要、登録不要）。

Tesseract の正直な弱点

Tesseract ベースのツールをメンテしているので、既知の弱点を正直に：

手書き：弱い。Tesseract をこれに使うな。
デザインフォント：弱い。書道、装飾フォント、手描きの看板 — すべて問題あり。
低解像度画像：弱い。文字高 200 px 以下は苦戦。
混合方向 / 曲線文字：うまく扱えない。
大きく傾いた画像：事前回転が必要。

入力が上記のいずれかなら、ChatGPT か Google Cloud Vision を使ってください。きれいな印刷文字をブラウザでアップロードなしで処理するなら、Tesseract.js は堅実です。

日常的に実際使っているもの

個人のワークフロー：

スマホで撮った領収書や請求書：Apple Live Text（Photos で画像長押し → テキストをコピー）。瞬時、デバイス上。
YouTube チュートリアルのコードスクリーンショット：ToolKoala 画像→テキスト。英語プリセット。再圧縮されたサムネからコピペするより断然きれい。
本の写真から引用：ToolKoala か Apple Live Text。手近なほう。
手書きノート（稀）：デスクトップ ChatGPT アプリ。画像を貼り付けて「改行を保持して正確に転記」と頼む。
税務準備のための大量領収書（年 1 回）：書いた後忘れた Python スクリプトで Google Cloud Vision を呼ぶ。

専用 OCR サービスにお金を払ったことはありません。「カジュアル用途はデバイス上で無料 + 難しいケースは LLM + バッチは Google Cloud Vision」の組み合わせで全部カバーできます。

まとめ

2026 年の OCR はもう単一カテゴリではありません。少なくとも 3 つに分かれます：

文字認識（Tesseract、Apple Live Text）：速い、無料、オフライン。きれいな文字に良い。
クラウド OCR API（Google Vision、AWS Textract、Azure）：スケーラブル、画像あたり安い。バッチに良い。
LLM を OCR として（GPT-4o、Claude vision、Gemini）：高価、遅い、しかし文脈を理解。難しいケースに最適。

マーケティングではなく、タスクで選んでください。アップロードしたくないもの — 請求書、ID、医療、社内文書、ドラフト — を処理するなら、答えは 2 つのデバイス上の選択肢のどちらかであって、今ハイプされている AI ではありません。

ToolKoala の OCR を試す

無料で登録不要、アップロードなしの OCR ツールが今すぐ必要なら、ToolKoala 画像→テキストは以下に対応：

12+ 言語、英語、中国語（簡体+繁体）、日本語、韓国語、スペイン語、フランス語、ドイツ語、ロシア語、アラビア語、ポルトガル語、イタリア語を含む
混合言語モード（English + 简体中文、English + 日本語）
インライン編集出力（コピー前に OCR エラーを修正）
.txt ダウンロード

DevTools → Network タブを開いてアップロードなしを確認できます。

よくある質問

ブラウザOCR（Tesseract）の精度は十分？ 印刷文字——領収書、スクリーンショット、文書——なら十分で、文字精度は高いです。乱雑な手書きや低コントラストのスキャンは苦手で、そこはクラウドOCRが優勢です。

画像をアップロードせずにOCRできる？ ToolKoala の画像から文字は Tesseract.js をブラウザ内で完結。アップロードなし、初回読み込み後はオフラインでも動きます。クラウドOCR（Google、ChatGPT）は画像をサーバーに送ります。

対応言語は？ 英語、簡体・繁体中国語、日本語、韓国語、主要な欧州言語など12以上。アップロード前に言語を選ぶと精度が上がります。