← 전체 글 보기

2026년 OCR 실측 비교 — Tesseract vs Google Vision vs ChatGPT vs Apple Live Text (실제 정확도 수치)

2026-05-22

OCR — Optical Character Recognition, 이미지 속 텍스트를 실제 텍스트로 바꾸는 기술 — 은 예전엔 비참했습니다. 2008년에 교과서 페이지를 스캔하던 게 기억납니다. 소프트웨어가 횡설수설을 뱉어냈죠.

2026년엔 좋습니다. 때로 무서울 정도로요. 그러나 마케팅 주장은 현실과 맞지 않아서, 직접 벤치마크를 돌렸습니다 — 100장의 실제 이미지로 네 가지 널리 사용되는 도구를 비교했습니다. 이 글이 그 결과입니다.

참가자

100장의 이미지, 카테고리별 20장씩 5가지:

  • 깨끗한 인쇄 텍스트 20장: 책 페이지, 잡지 기사, 컴퓨터 인쇄 영수증.
  • 손글씨 20장: 4명의 노트 페이지(필기체와 정자체).
  • 스크린샷 20장: 코드, 터미널 출력, 웹 페이지, 슬라이드.
  • 저조도/흐릿한 사진 20장: 어두운 식당에서 찍은 영수증, 흐릿한 간판.
  • 다국어 20장: 중국어, 일본어, 한국어, 아랍어, 혼합 언어 문서.

도구:

  1. Tesseract.js — 오픈소스, WebAssembly로 브라우저에서 동작. ToolKoala 이미지→텍스트 도구 가 사용하는 엔진입니다.
  2. Google Cloud Vision API — Google의 상용 OCR. 1,000장당 $1.50.
  3. ChatGPT (GPT-4o vision) — LLM을 OCR로 쓰는 방식. 현재 가격으로 장당 ~$0.01.
  4. Apple Live Text — macOS Sonoma+ 와 iOS 16+ 내장. 하드웨어가 있다면 무료.

ABBYY FineReader(상용, $200 라이선스, 기업용)와 Microsoft Azure Vision(제 경험상 Google Cloud Vision과 사실상 동급)은 제외했습니다.

방법론

각 이미지에 대해 수동으로 정답을 입력한 후 문자 오류율(CER) 을 측정했습니다 — OCR이 틀린 문자의 비율(치환, 삽입, 삭제). 낮을수록 좋음. CER 5% 미만은 일반적으로 쓸 만함, 1% 미만은 우수.

전체 결과 (100장, CER, 낮을수록 좋음)

도구 CER 비고
ChatGPT GPT-4o 2.1% 전체적으로 큰 차이로 최고
Google Cloud Vision 3.4% 카테고리별로 가장 안정적
Apple Live Text 4.8% Apple 생태계 이미지에서 우수
Tesseract.js 6.7% 최고의 무료/프라이버시 옵션

이 헤드라인은 오해를 부릅니다. 카테고리별 분해가 각 도구의 강점과 약점을 드러냅니다.

깨끗한 인쇄 텍스트 (쉬운 카테고리)

도구 CER
ChatGPT GPT-4o 0.4%
Google Cloud Vision 0.6%
Apple Live Text 0.8%
Tesseract.js 1.2%

실용상 구분 불가. 입력이 깨끗한 인쇄 텍스트라면 무엇이든 잘 동작합니다. 다른 기준(비용, 프라이버시, 속도)으로 선택하세요.

손글씨 (어려운 카테고리)

도구 CER
ChatGPT GPT-4o 4.1%
Google Cloud Vision 8.2%
Apple Live Text 12.5%
Tesseract.js 23.0%

여기서 LLM이 다른 모두를 압도합니다. ChatGPT는 본질적으로 사람처럼 손글씨를 "읽습니다" — 문맥으로 모호한 글자를 구분합니다. Tesseract.js는 근본적으로 이걸 할 수 없습니다. 그것은 문자 인식 모델이지 언어 모델이 아닙니다.

손글씨 노트를 디지털화하는 게 일이라면 ChatGPT가 답입니다. 정확도 격차가 거대합니다.

스크린샷과 코드 (까다로운 것)

도구 CER
Google Cloud Vision 1.8%
ChatGPT GPT-4o 2.4% (단, 추가 코멘트를 붙임)
Apple Live Text 2.6%
Tesseract.js 4.5%

ChatGPT에 여기서 문제가 있습니다: 때때로 "친절하게" 설명을 추가하거나 오타라고 생각하는 부분을 수정합니다. "오타 포함해 정확히 그대로 옮겨라, 설명/수정하지 마라" 라고 명시해도 1/3은 어긋났습니다.

스크린샷의 순수 전사는 Google Cloud Vision이 가장 깨끗합니다. Tesseract.js는 코드는 잘 다루지만 특수문자가 있는 터미널 출력에서 비틀거립니다.

저조도와 흐릿한 사진

도구 CER
ChatGPT GPT-4o 3.5%
Google Cloud Vision 5.1%
Apple Live Text 7.2%
Tesseract.js 14.0%

LLM이 다시 승리하는 이유는 문맥을 쓰기 때문. Tesseract는 "Iotal"을 보면 "Iotal"을 출력. ChatGPT는 영수증 중간의 "Iotal"을 보고 "Total"을 출력. 때로 유용하고, 때로 틀림(예: 영수증의 실제 상품명이 오독처럼 보이는 경우).

다국어

도구 English 简体中文 日本語 한국어 العربية
ChatGPT GPT-4o 0.4% 1.8% 2.1% 2.4% 3.0%
Google Cloud Vision 0.6% 2.4% 2.0% 2.5% 3.6%
Apple Live Text 0.8% 3.8% 3.5% 5.5% 없음
Tesseract.js 1.2% 8.5% 7.0% 9.0% 11.5%

Tesseract는 CJK와 RTL 언어에서 크게 뒤집니다. ChatGPT와 Google Cloud Vision 모두 잘 처리하며, ChatGPT가 약간 더 좋습니다.

혼합 언어 문서(예: 일영 슬라이드)에서는 ChatGPT가 최고 — 문서 중간에 언어를 전환할 수 있으니까요. Tesseract는 언어 조합을 미리 선택해야 합니다(ToolKoala에서 "English + 한국어" 같은 프리셋을 노출합니다).

프라이버시와 비용

여기가 순수 정확도를 넘어 흥미로운 부분.

도구 프라이버시 비용 (영수증 1000장) 오프라인?
Tesseract.js 로컬만 — 브라우저를 떠나지 않음 $0
Apple Live Text 기기 내 $0
Google Cloud Vision Google에 업로드 ~$1.50 아니오
ChatGPT GPT-4o vision OpenAI에 업로드 ~$10 아니오

영수증 1,000장을 매달 처리하는 작은 사업자에게:

  • ChatGPT API: 월 $10, 이미지 복잡도에 따라 청구액 증가.
  • Google Cloud Vision: 월 $1.50, 매우 저렴.
  • Tesseract.js 또는 Apple Live Text: 월 $0. 영어/EU 언어는 Apple이 더 정확; CJK는 올바른 언어 프리셋을 선택하면 Tesseract가 더 정확.

프라이버시 민감 콘텐츠 — 의료 기록, 신분증 스캔, 금융 문서, 회사 내부 스크린샷 — 의 경우, 정확도와 무관하게 ChatGPT와 Google Cloud Vision은 제외됩니다. 선택지는 Apple Live Text(Mac/iPhone에서 한 장씩) 또는 Tesseract.js(배치 / 비-Apple 플랫폼 필요)로 줄어듭니다.

무엇을 선택할까

ChatGPT GPT-4o를 선택, 다음의 경우:

  • 손글씨를 디지털화하고 정확도가 프라이버시보다 중요할 때.
  • 작은 배치(< 100장)고 돈 내는 게 신경 쓰이지 않을 때.
  • 콘텐츠가 민감하지 않을 때.

Google Cloud Vision을 선택, 다음의 경우:

  • 10,000장 이상의 이미지를 저렴하게 처리해야 할 때.
  • 백엔드 서비스에 통합할 때.
  • 콘텐츠가 민감하지 않을 때.

Apple Live Text를 선택, 다음의 경우:

  • Mac/iPhone을 쓸 때.
  • 한 장씩 가볍게 처리할 때.
  • 텍스트가 주로 영어, 스페인어, 프랑스어, 독일어 등 주요 라틴 문자 언어일 때.

Tesseract.js / ToolKoala 를 선택, 다음의 경우:

  • 프라이버시가 중요할 때(이미지가 브라우저를 떠나지 않음).
  • 호출당 결제 없이 CJK나 다른 비-라틴 문자 지원이 필요할 때.
  • 가끔 배치 작업이 있고 API 키 설정을 하기 싫을 때.
  • 비-기술 사용자에게 OCR을 보여줄 때(브라우저 도구는 설치도 가입도 필요 없음).

Tesseract의 정직한 약점

Tesseract 기반 도구를 유지보수하므로, 알려진 약점을 솔직히 말합니다:

  • 손글씨: 약함. Tesseract를 이걸로 쓰지 마세요.
  • 스타일 폰트: 약함. 캘리그래피, 장식 폰트, 손으로 칠한 간판 — 모두 문제.
  • 저해상도 이미지: 약함. 텍스트 높이 ~200 px 이하는 힘듦.
  • 혼합 방향/곡선 텍스트: 잘 처리 못함.
  • 크게 기울어진 이미지: 사전 회전 필요.

입력이 위 중 하나라면 ChatGPT나 Google Cloud Vision을 쓰세요. 브라우저에서 업로드 없이 깨끗한 인쇄 텍스트라면 Tesseract.js는 견고합니다.

일상에서 실제로 쓰는 것

개인 워크플로우:

  • 휴대폰으로 찍은 영수증과 청구서: Apple Live Text(Photos에서 이미지 길게 눌러 → 텍스트 복사). 즉시, 기기 내.
  • YouTube 튜토리얼의 코드 스크린샷: ToolKoala 이미지→텍스트. 영어 프리셋. 재압축된 썸네일에서 복사/붙여넣기보다 깔끔.
  • 책 사진에서 인용: ToolKoala나 Apple Live Text. 가까이 있는 것.
  • 손글씨 노트(드묾): 데스크톱 ChatGPT 앱. 이미지를 붙이고 "줄바꿈을 유지하고 정확히 옮겨라" 라고 요청.
  • 세금 신고용 대량 영수증(연 1회): 한 번 쓰고 어떻게 썼는지 까먹은 Python 스크립트로 Google Cloud Vision 호출.

전용 OCR 서비스에 돈을 낸 적이 없습니다. "캐주얼 용도는 기기 내 무료 + 어려운 케이스는 LLM + 배치는 Google Cloud Vision" 조합이면 다 커버됩니다.

결론

2026년의 OCR은 더 이상 단일 카테고리가 아닙니다. 적어도 셋으로 나뉩니다:

  1. 문자 인식(Tesseract, Apple Live Text): 빠름, 무료, 오프라인. 깨끗한 텍스트에 좋음.
  2. 클라우드 OCR API(Google Vision, AWS Textract, Azure): 확장 가능, 이미지당 저렴. 배치에 좋음.
  3. LLM을 OCR로(GPT-4o, Claude vision, Gemini): 비쌈, 느림, 그러나 문맥 이해. 어려운 케이스 최적.

마케팅이 아닌 작업에 따라 선택하세요. 업로드하기 싫은 것 — 청구서, 신분증, 의료, 내부 문서, 초안 — 을 처리한다면 답은 기기 내 두 옵션 중 하나지, 지금 한창 떠도는 AI가 아닙니다.

ToolKoala OCR 시도해 보기

지금 무료, 가입 없음, 업로드 없는 OCR 도구가 필요하다면 ToolKoala 이미지→텍스트 는 다음을 지원합니다:

  • 12+ 언어, 영어, 중국어(간체+번체), 일본어, 한국어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 포르투갈어, 이탈리아어 포함
  • 혼합 언어 모드 (English + 简体中文, English + 한국어)
  • 인라인 편집 출력 (복사 전 OCR 오류 수정)
  • .txt 다운로드

DevTools → Network 탭을 열어 업로드 없음을 확인할 수 있습니다.

관련 ToolKoala 도구