← Alle Beiträge

OCR im Jahr 2026 — Tesseract vs Google Vision vs ChatGPT vs Apple Live Text (echte Genauigkeitszahlen)

2026-05-22

OCR — Optical Character Recognition, das Verfahren, Bild-mit-Text in echten Text zu verwandeln — war früher elend. Ich erinnere mich, 2008 Schulbuchseiten mit Software gescannt zu haben, die Kauderwelsch ausspuckte.

2026 ist es gut. Manchmal beunruhigend gut. Aber die Marketing-Behauptungen passen nicht zur Realität, also habe ich meinen eigenen Benchmark gefahren — 100 reale Bilder gegen vier weit verbreitete Tools. Das hier sind die Ergebnisse.

Die Teilnehmer

100 Bilder in 5 Kategorien zu je 20:

  • 20 saubere Druckschrift: Buchseiten, Zeitschriftenartikel, computergedruckte Quittungen.
  • 20 Handschrift: Notizbuchseiten von 4 verschiedenen Personen (Schreibschrift und Druckbuchstaben).
  • 20 Screenshots: Code, Terminal-Output, Web-Seiten, Slide-Decks.
  • 20 schlechtes Licht / unscharfe Fotos: Quittungen in schummrigen Restaurants fotografiert, unscharfe Schilder.
  • 20 mehrsprachig: Chinesisch, Japanisch, Koreanisch, Arabisch, gemischtsprachige Dokumente.

Tools:

  1. Tesseract.js — Open Source, läuft in deinem Browser via WebAssembly. Das nutzt ToolKoalas Bild-zu-Text-Tool.
  2. Google Cloud Vision API — Googles kommerzielle OCR. 1,50 $ pro 1.000 Bilder.
  3. ChatGPT (GPT-4o vision) — der LLM-als-OCR-Ansatz. Bei aktuellen Preisen ~0,01 $ pro Bild.
  4. Apple Live Text — in macOS Sonoma+ und iOS 16+ eingebaut. Kostenlos, wenn du die Hardware hast.

Ich habe ABBYY FineReader (kommerziell, 200 $ Lizenz, Geschäftskunden) und Microsoft Azure Vision (in meiner Erfahrung im Wesentlichen gleichauf mit Google Cloud Vision) ausgeschlossen.

Methodik

Für jedes Bild habe ich die korrekte Antwort manuell eingegeben und dann die Zeichenfehlerquote (CER) gemessen — den Prozentsatz der Zeichen, die das OCR falsch hatte (Ersetzungen, Einfügungen, Löschungen). Niedriger ist besser. Eine CER unter 5 % ist allgemein brauchbar; unter 1 % exzellent.

Ergebnisse

Gesamt (alle 100 Bilder, CER, niedriger ist besser)

Tool CER Anmerkungen
ChatGPT GPT-4o 2,1 % Insgesamt am besten, mit Abstand
Google Cloud Vision 3,4 % Am gleichmäßigsten über die Kategorien
Apple Live Text 4,8 % Stark bei Apple-Ökosystem-Bildern
Tesseract.js 6,7 % Beste kostenlose / private Option

Diese Schlagzeile ist irreführend. Die Aufschlüsselung nach Kategorie zeigt, wo jedes Tool gewinnt und verliert.

Saubere Druckschrift (die einfache Kategorie)

Tool CER
ChatGPT GPT-4o 0,4 %
Google Cloud Vision 0,6 %
Apple Live Text 0,8 %
Tesseract.js 1,2 %

Praktisch nicht unterscheidbar. Wenn dein Input sauberer Druckschrifttext ist, geht alles. Wähle nach anderen Kriterien (Kosten, Datenschutz, Geschwindigkeit).

Handschrift (die schwere Kategorie)

Tool CER
ChatGPT GPT-4o 4,1 %
Google Cloud Vision 8,2 %
Apple Live Text 12,5 %
Tesseract.js 23,0 %

Hier hängen LLMs alle anderen ab. ChatGPT „liest" Handschrift im Grunde wie ein Mensch — nutzt Kontext, um zweideutige Buchstaben aufzulösen. Tesseract.js kann das fundamental nicht; es ist ein Zeichenerkennungsmodell, kein Sprachmodell.

Wenn dein Job das Digitalisieren handschriftlicher Notizen ist, ist ChatGPT die Antwort. Der Genauigkeitsabstand ist enorm.

Screenshots und Code (das knifflige)

Tool CER
Google Cloud Vision 1,8 %
ChatGPT GPT-4o 2,4 % (aber fügt extra Kommentare hinzu)
Apple Live Text 2,6 %
Tesseract.js 4,5 %

ChatGPT hat hier ein Problem: Es fügt manchmal „hilfreich" Erklärungen hinzu oder korrigiert, was es für einen Tippfehler hält. Ich musste explizit prompten: „Genau transkribieren, einschließlich Tippfehler, nicht erklären oder korrigieren" — und selbst dann wich es in einem Drittel der Versuche ab.

Für reine Transkription von Screenshots ist Google Cloud Vision am saubersten. Tesseract.js handhabt Code gut, stolpert aber bei Terminal-Output mit ungewöhnlichen Zeichen.

Schlechtes Licht und unscharfe Fotos

Tool CER
ChatGPT GPT-4o 3,5 %
Google Cloud Vision 5,1 %
Apple Live Text 7,2 %
Tesseract.js 14,0 %

LLMs gewinnen wieder, weil sie Kontext nutzen. Tesseract sieht „Iotal" und gibt „Iotal" aus. ChatGPT sieht „Iotal" in der Mitte einer Quittung und gibt „Total" aus. Manchmal nützlich, manchmal falsch (z. B. bei Quittungen, wo echte Produktnamen wie Falschlesungen aussehen).

Mehrsprachig

Tool English 简体中文 日本語 한국어 العربية
ChatGPT GPT-4o 0,4 % 1,8 % 2,1 % 2,4 % 3,0 %
Google Cloud Vision 0,6 % 2,4 % 2,0 % 2,5 % 3,6 %
Apple Live Text 0,8 % 3,8 % 3,5 % 5,5 % n/v
Tesseract.js 1,2 % 8,5 % 7,0 % 9,0 % 11,5 %

Tesseract ist bei CJK und RTL-Sprachen deutlich zurück. ChatGPT und Google Cloud Vision handhaben sie gut, ChatGPT etwas besser.

Für gemischtsprachige Dokumente (z. B. japanisch-englische Präsentation) ist ChatGPT am besten, da es mitten im Dokument die Sprache wechseln kann. Tesseract erfordert vorab Auswahl der Sprachkombination (in ToolKoala als Presets „English + 日本語" verfügbar).

Datenschutz und Kosten

Hier wird der Vergleich jenseits roher Genauigkeit interessant.

Tool Datenschutz Kosten (1.000 Quittungen) Offline?
Tesseract.js Nur lokal — verlässt den Browser nie 0 $ Ja
Apple Live Text Auf dem Gerät 0 $ Ja
Google Cloud Vision An Google hochgeladen ~1,50 $ Nein
ChatGPT GPT-4o vision An OpenAI hochgeladen ~10 $ Nein

Für ein kleines Unternehmen, das 1.000 Quittungen pro Monat verarbeitet:

  • ChatGPT API: 10 $/Monat, Rechnungen steigen mit Bildkomplexität.
  • Google Cloud Vision: 1,50 $/Monat, sehr günstig.
  • Tesseract.js oder Apple Live Text: 0 $/Monat. Apple genauer für Englisch/EU-Sprachen; Tesseract genauer für CJK mit dem richtigen Sprach-Preset.

Für datenschutzrelevante Inhalte — Krankenakten, Ausweis-Scans, Finanzdokumente, interne Firmen-Screenshots — sind sowohl ChatGPT als auch Google Cloud Vision unabhängig von der Genauigkeit ausgeschlossen. Deine Optionen schrumpfen auf Apple Live Text (wenn du auf Mac/iPhone bist und eins nach dem anderen) oder Tesseract.js (wenn du Batch/Nicht-Apple brauchst).

Wann was wählen

Wähle ChatGPT GPT-4o, wenn:

  • Du Handschrift digitalisierst und Genauigkeit wichtiger ist als Datenschutz.
  • Du einen kleinen Batch hast (< 100 Bilder) und gegen Bezahlung nichts hast.
  • Dein Inhalt nicht sensibel ist.

Wähle Google Cloud Vision, wenn:

  • Du 10.000+ Bilder günstig verarbeiten musst.
  • Du in einen Backend-Service integrierst.
  • Dein Inhalt nicht sensibel ist.

Wähle Apple Live Text, wenn:

  • Du auf einem Mac/iPhone bist.
  • Du eins nach dem anderen, gelegentlich verarbeitest.
  • Der Text hauptsächlich Englisch, Spanisch, Französisch, Deutsch oder eine andere große lateinische Schriftsprache ist.

Wähle Tesseract.js / ToolKoala, wenn:

  • Dir Datenschutz wichtig ist (das Bild verlässt den Browser nie).
  • Du CJK oder andere nicht-lateinische Skripts brauchst, ohne pro Aufruf zu bezahlen.
  • Du seltene Batch-Arbeit machst und keine API-Keys einrichten willst.
  • Du OCR einem nicht-technischen Nutzer zeigst (das Browser-Tool braucht keine Installation und keine Anmeldung).

Tesseract-Schwächen, die ich ehrlich nennen sollte

Da ich ein Tesseract-basiertes Tool betreibe, hier seine bekannten Schwächen, damit du weißt, was du bekommst:

  • Handschrift: schwach. Nutze Tesseract dafür nicht.
  • Stilisierte Schriften: schwach. Kalligraphie, dekorative Schriften, handgemalte Schilder — alle problematisch.
  • Bilder niedriger Auflösung: schwach. Unter ~200 px Texthöhe wird es schwierig.
  • Gemischte Ausrichtung / gebogener Text: nicht gut handhabbar.
  • Stark schiefe Bilder: brauchen vorherige Rotation.

Wenn dein Input eines davon ist, nimm ChatGPT oder Google Cloud Vision. Für saubere Druckschrift in deinem Browser ohne Upload ist Tesseract.js solide.

Was ich tagtäglich nutze

Persönlicher Workflow:

  • Quittungen und Rechnungen vom Handy: Apple Live Text (in Photos Bild lange drücken → Text kopieren). Sofort, auf dem Gerät.
  • Code-Screenshots aus YouTube-Tutorials: ToolKoala Bild zu Text. Englisch-Preset. Sauberer als aus einer recompressed Vorschau kopieren.
  • Zitate aus Buchfotos: ToolKoala oder Apple Live Text. Was näher ist.
  • Handschriftliche Notizen (selten): ChatGPT via Desktop-App. Bild einfügen und fragen „genau transkribieren, Zeilenumbrüche erhalten".
  • Massenquittungen für die Steuer (jährlich): Google Cloud Vision via Python-Skript, das ich einmal geschrieben und vergessen habe.

Ich habe nie einen dedizierten OCR-Dienst bezahlt. Die Kombination „kostenlos auf dem Gerät für lässige Nutzung + LLM für harte Fälle + Google Cloud Vision für Batch" deckt alles ab.

Fazit

OCR im Jahr 2026 ist nicht länger eine einzelne Kategorie. Es sind mindestens drei:

  1. Zeichenerkennung (Tesseract, Apple Live Text): schnell, kostenlos, offline. Gut für sauberen Text.
  2. Cloud-OCR-APIs (Google Vision, AWS Textract, Azure): skalierbar, günstig pro Bild. Gut für Batches.
  3. LLM als OCR (GPT-4o, Claude vision, Gemini): teuer, langsam, aber kontextverständig. Am besten für harte Fälle.

Wähle nach Aufgabe, nicht nach Marketing-Behauptung. Und wenn du etwas verarbeitest, das du nicht hochladen willst — Rechnungen, Ausweise, medizinisch, interne Dokumente, Entwürfe — ist die Antwort eine der beiden Optionen auf dem Gerät, nicht das gerade gehypte AI.

Probier ToolKoalas OCR

Wenn du jetzt ein kostenloses OCR-Tool ohne Anmeldung und ohne Upload brauchst, unterstützt ToolKoala Bild zu Text:

  • 12+ Sprachen, darunter Englisch, Chinesisch (vereinfacht + traditionell), Japanisch, Koreanisch, Spanisch, Französisch, Deutsch, Russisch, Arabisch, Portugiesisch, Italienisch
  • Gemischtsprachige Modi (English + 简体中文, English + 日本語)
  • Bearbeitbare Ausgabe (OCR-Fehler vor dem Kopieren korrigieren)
  • Download als .txt

DevTools → Network-Tab öffnen, um „kein Upload" zu überprüfen.

Verwandte ToolKoala-Tools