OCR em 2026 — Tesseract vs Google Vision vs ChatGPT vs Apple Live Text (números reais de precisão)
2026-05-22
OCR — Optical Character Recognition, o que transforma imagem-com-texto em texto-real — costumava ser uma tragédia. Lembro de escanear páginas de livros didáticos em 2008 com software que vomitava lixo.
Em 2026 está bom. Às vezes assustadoramente bom. Mas as afirmações de marketing não batem com a realidade, então rodei meu próprio benchmark com 100 imagens reais contra quatro ferramentas amplamente usadas. Este artigo é o que descobri.
Os participantes
100 imagens em 5 categorias de 20:
- 20 textos impressos limpos: páginas de livro, artigos de revista, recibos impressos por computador.
- 20 escritas à mão: páginas de caderno de 4 pessoas diferentes (cursiva e bastão).
- 20 capturas de tela: código, saída de terminal, páginas web, slides.
- 20 fotos com pouca luz / desfocadas: recibos fotografados em restaurantes mal iluminados, placas borradas.
- 20 multilíngues: chinês, japonês, coreano, árabe, documentos com idiomas misturados.
Ferramentas:
- Tesseract.js — open source, roda no navegador via WebAssembly. É o que a ferramenta Image to Text do ToolKoala usa.
- Google Cloud Vision API — OCR comercial do Google. US$ 1,50 por 1.000 imagens.
- ChatGPT (GPT-4o vision) — a abordagem LLM-como-OCR. ~US$ 0,01 por imagem nos preços atuais.
- Apple Live Text — embutido no macOS Sonoma+ e iOS 16+. Grátis se você tem o hardware.
Excluí ABBYY FineReader (comercial, licença de US$ 200, foco empresarial) e Microsoft Azure Vision (essencialmente empatado com o Google Cloud Vision na minha experiência).
A metodologia
Para cada imagem, digitei manualmente o gabarito e depois medi a taxa de erro por caractere (CER) — o percentual de caracteres que o OCR errou (substituições, inserções, exclusões). Menor é melhor. CER abaixo de 5% é geralmente utilizável; abaixo de 1% é excelente.
Resultados gerais (todas as 100 imagens, CER, menor é melhor)
| Ferramenta | CER | Notas |
|---|---|---|
| ChatGPT GPT-4o | 2,1% | Melhor geral com margem |
| Google Cloud Vision | 3,4% | Mais consistente entre categorias |
| Apple Live Text | 4,8% | Ótimo em imagens do ecossistema Apple |
| Tesseract.js | 6,7% | Melhor opção gratuita / privada |
A manchete é enganosa. O recorte por categoria revela onde cada um ganha e perde.
Texto impresso limpo (categoria fácil)
| Ferramenta | CER |
|---|---|
| ChatGPT GPT-4o | 0,4% |
| Google Cloud Vision | 0,6% |
| Apple Live Text | 0,8% |
| Tesseract.js | 1,2% |
Indistinguíveis na prática. Se sua entrada é texto impresso limpo, qualquer um serve. Escolha pelos outros critérios (custo, privacidade, velocidade).
Escrita à mão (categoria difícil)
| Ferramenta | CER |
|---|---|
| ChatGPT GPT-4o | 4,1% |
| Google Cloud Vision | 8,2% |
| Apple Live Text | 12,5% |
| Tesseract.js | 23,0% |
Aqui os LLMs dominam todo mundo. O ChatGPT essencialmente "lê" escrita à mão como um humano leria — usando contexto para desambiguar letras ambíguas. O Tesseract.js fundamentalmente não consegue; ele é um modelo de reconhecimento de caracteres, não um modelo de linguagem.
Se seu trabalho é digitalizar notas escritas à mão, ChatGPT é a resposta. A diferença de precisão é enorme.
Capturas de tela e código (o complicado)
| Ferramenta | CER |
|---|---|
| Google Cloud Vision | 1,8% |
| ChatGPT GPT-4o | 2,4% (mas adiciona comentários extras) |
| Apple Live Text | 2,6% |
| Tesseract.js | 4,5% |
O ChatGPT tem um problema aqui: às vezes "ajuda" adicionando explicações ou corrigindo o que ele acha que é typo. Tive que pedir explicitamente "transcreva exatamente, incluindo typos, sem explicar ou corrigir" — e mesmo assim desviou em um terço das tentativas.
Para transcrição pura de capturas, Google Cloud Vision é o mais limpo. Tesseract.js lida bem com código, mas tropeça em saída de terminal com caracteres incomuns.
Pouca luz e fotos desfocadas
| Ferramenta | CER |
|---|---|
| ChatGPT GPT-4o | 3,5% |
| Google Cloud Vision | 5,1% |
| Apple Live Text | 7,2% |
| Tesseract.js | 14,0% |
LLMs ganham de novo porque usam contexto. Tesseract vê "Iotal" e devolve "Iotal". ChatGPT vê "Iotal" no meio de um recibo e devolve "Total". Às vezes útil, às vezes errado (ex.: em recibos onde nomes reais de produtos parecem leituras erradas).
Multilíngue
| Ferramenta | English | 简体中文 | 日本語 | 한국어 | العربية |
|---|---|---|---|---|---|
| ChatGPT GPT-4o | 0,4% | 1,8% | 2,1% | 2,4% | 3,0% |
| Google Cloud Vision | 0,6% | 2,4% | 2,0% | 2,5% | 3,6% |
| Apple Live Text | 0,8% | 3,8% | 3,5% | 5,5% | n/d |
| Tesseract.js | 1,2% | 8,5% | 7,0% | 9,0% | 11,5% |
Tesseract fica significativamente atrás em CJK e RTL. ChatGPT e Google Cloud Vision lidam bem com essas, ChatGPT levemente melhor.
Para documentos com idiomas mesclados (ex.: slides em japonês-inglês), ChatGPT é o melhor porque pode trocar de idioma no meio do documento. Tesseract exige pré-selecionar a combinação de idiomas (no ToolKoala expomos como presets "English + 日本語").
Privacidade e custo
Aqui a comparação fica interessante além da precisão pura.
| Ferramenta | Privacidade | Custo (1.000 recibos) | Offline? |
|---|---|---|---|
| Tesseract.js | Local apenas — nunca sai do navegador | US$ 0 | Sim |
| Apple Live Text | No dispositivo | US$ 0 | Sim |
| Google Cloud Vision | Enviado para o Google | ~US$ 1,50 | Não |
| ChatGPT GPT-4o vision | Enviado para a OpenAI | ~US$ 10 | Não |
Para um pequeno negócio processando 1.000 recibos por mês:
- API do ChatGPT: US$ 10/mês, contas sobem com a complexidade da imagem.
- Google Cloud Vision: US$ 1,50/mês, muito barato.
- Tesseract.js ou Apple Live Text: US$ 0/mês. Apple mais preciso para inglês/idiomas EU; Tesseract mais preciso para CJK se escolher o preset certo.
Para conteúdo sensível à privacidade — prontuários médicos, escaneamentos de RG, documentos financeiros, capturas internas de empresa — tanto ChatGPT quanto Google Cloud Vision estão fora da mesa, independente da precisão. Suas opções colapsam para Apple Live Text (se você está em Mac/iPhone e processa um por vez) ou Tesseract.js (se precisa de batch / plataforma não-Apple).
Quando escolher cada um
Escolha ChatGPT GPT-4o se:
- Você está digitalizando escrita à mão e precisão importa mais que privacidade.
- Tem um batch pequeno (< 100 imagens) e não se importa de pagar.
- Seu conteúdo não é sensível.
Escolha Google Cloud Vision se:
- Precisa processar 10.000+ imagens barato.
- Está integrando em um serviço de backend.
- Seu conteúdo não é sensível.
Escolha Apple Live Text se:
- Está em Mac/iPhone.
- Processa uma imagem por vez, casualmente.
- O texto é principalmente inglês, espanhol, francês, alemão ou outra língua latina principal.
Escolha Tesseract.js / ToolKoala se:
- Se importa com privacidade (a imagem não sai do navegador).
- Precisa de suporte CJK ou outros scripts não latinos sem pagar por chamada.
- Faz trabalho em lote esporadicamente e não quer configurar API keys.
- Está mostrando OCR para um usuário não técnico (a ferramenta de navegador não precisa de instalação nem cadastro).
Limitações do Tesseract que devo ser honesto sobre
Já que mantenho uma ferramenta baseada em Tesseract, eis as fraquezas conhecidas dele, para você saber o que está pegando:
- Escrita à mão: fraco. Não use Tesseract para isso.
- Fontes estilizadas: fraco. Caligrafia, fontes decorativas, placas pintadas à mão — todas problemáticas.
- Imagens em baixa resolução: fraco. Abaixo de ~200 px de altura de texto é difícil.
- Orientação mista / texto curvo: não lida bem.
- Imagens muito tortas: precisa de pré-rotação.
Se sua entrada é alguma dessas, use ChatGPT ou Google Cloud Vision. Para texto impresso limpo no seu navegador sem upload, Tesseract.js é sólido.
O que eu uso no dia a dia
Workflow pessoal:
- Recibos e contas do celular: Apple Live Text (pressione longo a imagem em Photos → Copiar Texto). Instantâneo, no dispositivo.
- Capturas de código de tutoriais do YouTube: ToolKoala Image to Text. Preset inglês. Mais limpo que copiar/colar de uma thumb recomprimida.
- Citar de fotos de livro: ToolKoala ou Apple Live Text. O que estiver mais à mão.
- Notas escritas à mão (raro): ChatGPT pelo app desktop. Colo a imagem e peço "transcreva exatamente, preserve quebras de linha".
- Recibos em lote para imposto de renda (anual): Google Cloud Vision via um script Python que escrevi uma vez e esqueci como.
Nunca paguei por um serviço dedicado de OCR. A combinação "no dispositivo grátis para uso casual + LLM para casos difíceis + Google Cloud Vision para batch" cobre tudo.
Conclusão
OCR em 2026 não é mais uma única categoria. São pelo menos três:
- Reconhecimento de caracteres (Tesseract, Apple Live Text): rápido, grátis, offline. Bom para texto limpo.
- APIs de OCR em nuvem (Google Vision, AWS Textract, Azure): escalável, barato por imagem. Bom para lotes.
- LLM como OCR (GPT-4o, Claude vision, Gemini): caro, lento, mas entende contexto. Melhor para casos difíceis.
Escolha pela tarefa, não pelas alegações de marketing. E se está processando algo que não quer fazer upload — contas, RGs, médico, documentos internos, rascunhos — a resposta é uma das duas opções no dispositivo, não o AI da moda.
Experimente o OCR do ToolKoala
Se você quer uma ferramenta de OCR grátis, sem cadastro e sem upload agora mesmo, ToolKoala Image to Text suporta:
- 12+ idiomas, incluindo inglês, chinês (simplificado + tradicional), japonês, coreano, espanhol, francês, alemão, russo, árabe, português, italiano
- Modos de idioma misto (English + 简体中文, English + 日本語)
- Saída editável (corrija erros de OCR antes de copiar)
- Download como
.txt
Abra DevTools → aba Network para verificar que nada é enviado.
Ferramentas relacionadas do ToolKoala
- PDF OCR — mesma engine Tesseract, mas para PDFs página por página
- PDF para Texto — para PDFs que já têm texto selecionável (sem OCR necessário)
- Contador de palavras — cole a saída do OCR aqui para estatísticas
- Conversor de Maiúsculas — limpe o casing da saída do OCR