🔎 PDF OCR

Text aus gescannten PDFs extrahieren — 100+ Sprachen, läuft im Browser

🔒 Dein Bild verlässt nie dein Gerät. Die gesamte Verarbeitung erfolgt lokal in deinem Browser mit tesseract.js (WASM) + pdf-lib. Kein Upload, kein Server, kein Tracking.

Funktionen

  • 100+ Sprachen — Erkennt Text in Englisch, Chinesisch, Spanisch, Arabisch, Japanisch und vielen mehr — mit Tesseract.
  • Durchsuchbare PDF-Ausgabe — Fügt eine unsichtbare Textschicht hinzu, sodass der Scan optisch identisch bleibt, aber durchsuchbar und kopierbar wird.
  • Reintext-Export — Optional den extrahierten Text als .txt-Datei für die weitere Verarbeitung exportieren.
  • 100% privat — OCR läuft in Ihrem Browser mit WASM-Tesseract — Ihr Scan verlässt Ihr Gerät nie.

So funktioniert's

  1. Gescannte PDF hochladen — Gescanntes Dokument auf die Seite ziehen.
  2. Sprache wählen — Primärsprache des Dokuments für beste Genauigkeit auswählen.
  3. OCR starten — Auf OCR starten klicken — die Verarbeitung dauert 1–10 Sekunden pro Seite.
  4. Herunterladen — Durchsuchbare PDF oder extrahierte .txt-Datei speichern.

Anwendungsfälle

  • Alte gescannte Verträge durchsuchbar machen
  • Text aus Quittungen für Spesenabrechnungen extrahieren
  • Gescannte Buchseiten in bearbeitbaren Text umwandeln
  • Archivierte Dokumente für die Stichwortsuche digitalisieren

Häufig gestellte Fragen

Wie genau ist die OCR?

Sehr hoch bei sauberen, kontrastreichen Scans. Die Genauigkeit sinkt bei Handschrift, unscharfen Bildern oder sehr kleinen Schriften.

Wie lange dauert es?

Typischerweise 1–10 Sekunden pro Seite, je nach Gerät und Bildkomplexität.

Wird meine PDF hochgeladen?

Nein. Tesseract läuft in Ihrem Browser via WebAssembly — nichts wird hochgeladen.

Kann ich OCR in mehreren Sprachen gleichzeitig durchführen?

Ja. Wählen Sie alle relevanten Sprachen aus — Tesseract versucht, alle zu erkennen.

Was ist der Unterschied zwischen durchsuchbarer PDF und Reintext-Ausgabe?

Die durchsuchbare PDF behält den Originalscan optisch und überlagert eine unsichtbare Textschicht, sodass Suche und Kopie funktionieren. Reintext exportiert nur die erkannten Wörter.

Verwandte Werkzeuge