OCR en 2026 — Tesseract vs Google Vision vs ChatGPT vs Apple Live Text (números reales de precisión)
2026-05-22
OCR — Optical Character Recognition, lo que convierte una imagen-con-texto en texto-real — solía ser miserable. Recuerdo escanear páginas de libros en 2008 con software que devolvía gibberish.
En 2026 es bueno. A veces inquietantemente bueno. Pero las afirmaciones de marketing no encajan con la realidad, así que monté mi propio benchmark sobre 100 imágenes del mundo real y cuatro herramientas muy usadas. Esto es lo que encontré.
Participantes
100 imágenes en 5 categorías de 20:
- 20 textos impresos limpios: páginas de libros, artículos de revista, recibos impresos.
- 20 escrituras a mano: páginas de cuaderno de 4 personas distintas (cursiva e imprenta).
- 20 capturas: código, salidas de terminal, páginas web, diapositivas.
- 20 fotos con poca luz o desenfocadas: recibos fotografiados en restaurantes tenues, carteles borrosos.
- 20 multilingües: chino, japonés, coreano, árabe, documentos en idiomas mezclados.
Herramientas:
- Tesseract.js — open source, corre en tu navegador vía WebAssembly. Es lo que usa la herramienta Imagen a Texto de ToolKoala.
- Google Cloud Vision API — el OCR comercial de Google. 1,50 $ por cada 1.000 imágenes.
- ChatGPT (GPT-4o vision) — el enfoque de LLM como OCR. ~0,01 $ por imagen al precio actual.
- Apple Live Text — integrado en macOS Sonoma+ y iOS 16+. Gratis si tienes el hardware.
Excluí ABBYY FineReader (comercial, licencia de 200 $, enfoque empresarial) y Microsoft Azure Vision (esencialmente empate con Google Cloud Vision en mi experiencia).
La metodología
Para cada imagen, tecleé la verdad manualmente y luego medí la tasa de error por carácter (CER) — el porcentaje de caracteres que el OCR equivocó (sustituciones, inserciones, supresiones). Menos es mejor. Un CER por debajo del 5 % suele ser usable; por debajo del 1 % es excelente.
Resultados
Global (las 100 imágenes, CER, menos es mejor)
| Herramienta | CER | Notas |
|---|---|---|
| ChatGPT GPT-4o | 2,1 % | Mejor global con margen |
| Google Cloud Vision | 3,4 % | El más estable entre categorías |
| Apple Live Text | 4,8 % | Excelente en imágenes del ecosistema Apple |
| Tesseract.js | 6,7 % | Mejor opción gratis / privada |
El titular es engañoso. El desglose por categoría revela dónde gana y pierde cada uno.
Texto impreso limpio (la categoría fácil)
| Herramienta | CER |
|---|---|
| ChatGPT GPT-4o | 0,4 % |
| Google Cloud Vision | 0,6 % |
| Apple Live Text | 0,8 % |
| Tesseract.js | 1,2 % |
Indistinguibles en la práctica. Si tu entrada es texto impreso limpio, cualquiera vale. Elige por otros criterios (coste, privacidad, velocidad).
Escritura a mano (la categoría dura)
| Herramienta | CER |
|---|---|
| ChatGPT GPT-4o | 4,1 % |
| Google Cloud Vision | 8,2 % |
| Apple Live Text | 12,5 % |
| Tesseract.js | 23,0 % |
Aquí los LLM dejan al resto en pañales. ChatGPT esencialmente "lee" escritura a mano como lo haría un humano — usa el contexto para desambiguar letras ambiguas. Tesseract.js fundamentalmente no puede; es un modelo de reconocimiento de caracteres, no un modelo de lenguaje.
Si tu trabajo es digitalizar notas escritas a mano, ChatGPT es la respuesta. La brecha de precisión es enorme.
Capturas y código (el complicado)
| Herramienta | CER |
|---|---|
| Google Cloud Vision | 1,8 % |
| ChatGPT GPT-4o | 2,4 % (pero añade comentarios extra) |
| Apple Live Text | 2,6 % |
| Tesseract.js | 4,5 % |
ChatGPT tiene aquí un problema: a veces "amablemente" añade explicaciones o corrige lo que cree que es un typo. Tuve que pedirle explícitamente "transcribe exactamente, incluyendo typos, sin explicar ni corregir" — y aun así se desviaba en un tercio de los intentos.
Para transcripción pura de capturas, Google Cloud Vision es el más limpio. Tesseract.js maneja bien el código pero tropieza con salidas de terminal con caracteres inusuales.
Fotos con poca luz y desenfocadas
| Herramienta | CER |
|---|---|
| ChatGPT GPT-4o | 3,5 % |
| Google Cloud Vision | 5,1 % |
| Apple Live Text | 7,2 % |
| Tesseract.js | 14,0 % |
Los LLM ganan de nuevo porque usan contexto. Tesseract ve "Iotal" y devuelve "Iotal". ChatGPT ve "Iotal" en medio de un recibo y devuelve "Total". A veces útil, a veces equivocado (p. ej., en recibos donde nombres reales de productos parecen errores de lectura).
Multilingüe
| Herramienta | English | 简体中文 | 日本語 | 한국어 | العربية |
|---|---|---|---|---|---|
| ChatGPT GPT-4o | 0,4 % | 1,8 % | 2,1 % | 2,4 % | 3,0 % |
| Google Cloud Vision | 0,6 % | 2,4 % | 2,0 % | 2,5 % | 3,6 % |
| Apple Live Text | 0,8 % | 3,8 % | 3,5 % | 5,5 % | n/d |
| Tesseract.js | 1,2 % | 8,5 % | 7,0 % | 9,0 % | 11,5 % |
Tesseract va significativamente por detrás en CJK y RTL. ChatGPT y Google Cloud Vision lo manejan bien, ChatGPT algo mejor.
Para documentos en idiomas mezclados (p. ej., presentación inglés-japonés), ChatGPT es el mejor porque puede cambiar de idioma a mitad de documento. Tesseract requiere preseleccionar la combinación de idiomas (lo exponemos en ToolKoala como presets "English + 日本語").
Privacidad y coste
Aquí la comparación se pone interesante más allá de la precisión bruta.
| Herramienta | Privacidad | Coste (1.000 recibos) | ¿Offline? |
|---|---|---|---|
| Tesseract.js | Solo local — nunca sale del navegador | 0 $ | Sí |
| Apple Live Text | En el dispositivo | 0 $ | Sí |
| Google Cloud Vision | Subido a Google | ~1,50 $ | No |
| ChatGPT GPT-4o vision | Subido a OpenAI | ~10 $ | No |
Para un pequeño negocio que procesa 1.000 recibos al mes:
- API de ChatGPT: 10 $/mes, sube con la complejidad de imagen.
- Google Cloud Vision: 1,50 $/mes, muy barato.
- Tesseract.js o Apple Live Text: 0 $/mes. Apple es más preciso en inglés/idiomas europeos; Tesseract es más preciso en CJK si eliges el preset adecuado.
Para contenido sensible a la privacidad — historiales médicos, escaneos de DNI, documentos financieros, capturas internas de empresa — tanto ChatGPT como Google Cloud Vision quedan descartados independientemente de su precisión. Las opciones se reducen a Apple Live Text (si estás en Mac/iPhone y procesas una a una) o Tesseract.js (si necesitas lote o plataforma no Apple).
Cuándo elegir cada uno
Elige ChatGPT GPT-4o si:
- Estás digitalizando escritura a mano y la precisión importa más que la privacidad.
- Tienes un lote pequeño (< 100 imágenes) y no te importa pagar.
- Tu contenido no es sensible.
Elige Google Cloud Vision si:
- Necesitas procesar 10.000+ imágenes barato.
- Te integras en un servicio backend.
- Tu contenido no es sensible.
Elige Apple Live Text si:
- Estás en Mac/iPhone.
- Procesas de una en una, casualmente.
- El texto es principalmente inglés, español, francés, alemán u otro idioma latino mayoritario.
Elige Tesseract.js / ToolKoala si:
- Te importa la privacidad (la imagen no sale del navegador).
- Necesitas soporte CJK u otros scripts no latinos sin pagar por llamada.
- Haces lotes esporádicos y no quieres configurar API keys.
- Vas a enseñarle OCR a un usuario no técnico (la herramienta no requiere instalar ni registrarse).
Limitaciones de Tesseract que debería reconocer
Ya que mantengo una herramienta basada en Tesseract, aquí sus debilidades conocidas para que sepas qué obtienes:
- Escritura a mano: floja. No uses Tesseract para esto.
- Fuentes estilizadas: floja. Caligrafía, fuentes decorativas, rótulos pintados a mano — todos problemáticos.
- Imágenes de baja resolución: floja. Por debajo de ~200 px de altura de texto cuesta.
- Texto en orientaciones mixtas o curvado: no lo maneja bien.
- Imágenes muy torcidas: necesita rotación previa.
Si tu entrada es alguna de estas, usa ChatGPT o Google Cloud Vision. Para texto impreso limpio en tu navegador sin subida, Tesseract.js es sólido.
Lo que uso en mi día a día
Workflow personal:
- Recibos y facturas desde el móvil: Apple Live Text (mantén pulsada la imagen en Photos → Copiar texto). Instantáneo, en el dispositivo.
- Capturas de código de tutoriales de YouTube: ToolKoala Image to Text. Preset inglés. Más limpio que copiar/pegar desde una miniatura recomprimida.
- Citar desde fotos de libros: ToolKoala o Apple Live Text. Lo que tenga más a mano.
- Notas escritas a mano (raro): ChatGPT vía la app de escritorio. Pego la imagen y pido "transcribe exactamente, preserva saltos de línea".
- Recibos en lote para hacer la declaración (anual): Google Cloud Vision vía un script Python que escribí una vez y olvidé cómo.
Nunca he pagado un servicio dedicado de OCR. La combinación "gratis en dispositivo para casual + LLM para casos difíciles + Google Cloud Vision para lote" cubre todo.
Conclusión
El OCR en 2026 ya no es una sola categoría. Son al menos tres:
- Reconocimiento de caracteres (Tesseract, Apple Live Text): rápido, gratis, offline. Bueno para texto limpio.
- APIs de OCR en la nube (Google Vision, AWS Textract, Azure): escalable, barato por imagen. Bueno para lotes.
- LLM como OCR (GPT-4o, Claude vision, Gemini): caro, lento, pero entiende contexto. Mejor para casos difíciles.
Elige según la tarea, no según el marketing. Y si procesas cualquier cosa que no quieras subir — facturas, DNIs, médico, documentos internos, borradores — la respuesta es alguna de las dos opciones en dispositivo, no el AI que actualmente más se hypea.
Prueba el OCR de ToolKoala
Si quieres una herramienta de OCR gratuita, sin registro y sin subida ahora mismo, ToolKoala Image to Text soporta:
- 12+ idiomas, incluido inglés, chino (simplificado + tradicional), japonés, coreano, español, francés, alemán, ruso, árabe, portugués, italiano
- Modos de idioma mezclado (English + 简体中文, English + 日本語)
- Salida editable (corrige cualquier error de OCR antes de copiar)
- Descarga como
.txt
Abre DevTools → Network para verificar que nada se sube.
Herramientas relacionadas de ToolKoala
- PDF OCR — mismo motor Tesseract, pero para PDFs página a página
- PDF a Texto — para PDFs con texto seleccionable (no necesita OCR)
- Contador de palabras — pega la salida del OCR para estadísticas
- Convertidor de mayúsculas — limpia el casing de la salida del OCR