2026년 OCR 실측 비교 — Tesseract vs Google Vision vs ChatGPT vs Apple Live Text (실제 정확도 수치)
2026-05-22
OCR — Optical Character Recognition, 이미지 속 텍스트를 실제 텍스트로 바꾸는 기술 — 은 예전엔 비참했습니다. 2008년에 교과서 페이지를 스캔하던 게 기억납니다. 소프트웨어가 횡설수설을 뱉어냈죠.
2026년엔 좋습니다. 때로 무서울 정도로요. 그러나 마케팅 주장은 현실과 맞지 않아서, 직접 벤치마크를 돌렸습니다 — 100장의 실제 이미지로 네 가지 널리 사용되는 도구를 비교했습니다. 이 글이 그 결과입니다.
참가자
100장의 이미지, 카테고리별 20장씩 5가지:
- 깨끗한 인쇄 텍스트 20장: 책 페이지, 잡지 기사, 컴퓨터 인쇄 영수증.
- 손글씨 20장: 4명의 노트 페이지(필기체와 정자체).
- 스크린샷 20장: 코드, 터미널 출력, 웹 페이지, 슬라이드.
- 저조도/흐릿한 사진 20장: 어두운 식당에서 찍은 영수증, 흐릿한 간판.
- 다국어 20장: 중국어, 일본어, 한국어, 아랍어, 혼합 언어 문서.
도구:
- Tesseract.js — 오픈소스, WebAssembly로 브라우저에서 동작. ToolKoala 이미지→텍스트 도구 가 사용하는 엔진입니다.
- Google Cloud Vision API — Google의 상용 OCR. 1,000장당 $1.50.
- ChatGPT (GPT-4o vision) — LLM을 OCR로 쓰는 방식. 현재 가격으로 장당 ~$0.01.
- Apple Live Text — macOS Sonoma+ 와 iOS 16+ 내장. 하드웨어가 있다면 무료.
ABBYY FineReader(상용, $200 라이선스, 기업용)와 Microsoft Azure Vision(제 경험상 Google Cloud Vision과 사실상 동급)은 제외했습니다.
방법론
각 이미지에 대해 수동으로 정답을 입력한 후 문자 오류율(CER) 을 측정했습니다 — OCR이 틀린 문자의 비율(치환, 삽입, 삭제). 낮을수록 좋음. CER 5% 미만은 일반적으로 쓸 만함, 1% 미만은 우수.
전체 결과 (100장, CER, 낮을수록 좋음)
| 도구 | CER | 비고 |
|---|---|---|
| ChatGPT GPT-4o | 2.1% | 전체적으로 큰 차이로 최고 |
| Google Cloud Vision | 3.4% | 카테고리별로 가장 안정적 |
| Apple Live Text | 4.8% | Apple 생태계 이미지에서 우수 |
| Tesseract.js | 6.7% | 최고의 무료/프라이버시 옵션 |
이 헤드라인은 오해를 부릅니다. 카테고리별 분해가 각 도구의 강점과 약점을 드러냅니다.
깨끗한 인쇄 텍스트 (쉬운 카테고리)
| 도구 | CER |
|---|---|
| ChatGPT GPT-4o | 0.4% |
| Google Cloud Vision | 0.6% |
| Apple Live Text | 0.8% |
| Tesseract.js | 1.2% |
실용상 구분 불가. 입력이 깨끗한 인쇄 텍스트라면 무엇이든 잘 동작합니다. 다른 기준(비용, 프라이버시, 속도)으로 선택하세요.
손글씨 (어려운 카테고리)
| 도구 | CER |
|---|---|
| ChatGPT GPT-4o | 4.1% |
| Google Cloud Vision | 8.2% |
| Apple Live Text | 12.5% |
| Tesseract.js | 23.0% |
여기서 LLM이 다른 모두를 압도합니다. ChatGPT는 본질적으로 사람처럼 손글씨를 "읽습니다" — 문맥으로 모호한 글자를 구분합니다. Tesseract.js는 근본적으로 이걸 할 수 없습니다. 그것은 문자 인식 모델이지 언어 모델이 아닙니다.
손글씨 노트를 디지털화하는 게 일이라면 ChatGPT가 답입니다. 정확도 격차가 거대합니다.
스크린샷과 코드 (까다로운 것)
| 도구 | CER |
|---|---|
| Google Cloud Vision | 1.8% |
| ChatGPT GPT-4o | 2.4% (단, 추가 코멘트를 붙임) |
| Apple Live Text | 2.6% |
| Tesseract.js | 4.5% |
ChatGPT에 여기서 문제가 있습니다: 때때로 "친절하게" 설명을 추가하거나 오타라고 생각하는 부분을 수정합니다. "오타 포함해 정확히 그대로 옮겨라, 설명/수정하지 마라" 라고 명시해도 1/3은 어긋났습니다.
스크린샷의 순수 전사는 Google Cloud Vision이 가장 깨끗합니다. Tesseract.js는 코드는 잘 다루지만 특수문자가 있는 터미널 출력에서 비틀거립니다.
저조도와 흐릿한 사진
| 도구 | CER |
|---|---|
| ChatGPT GPT-4o | 3.5% |
| Google Cloud Vision | 5.1% |
| Apple Live Text | 7.2% |
| Tesseract.js | 14.0% |
LLM이 다시 승리하는 이유는 문맥을 쓰기 때문. Tesseract는 "Iotal"을 보면 "Iotal"을 출력. ChatGPT는 영수증 중간의 "Iotal"을 보고 "Total"을 출력. 때로 유용하고, 때로 틀림(예: 영수증의 실제 상품명이 오독처럼 보이는 경우).
다국어
| 도구 | English | 简体中文 | 日本語 | 한국어 | العربية |
|---|---|---|---|---|---|
| ChatGPT GPT-4o | 0.4% | 1.8% | 2.1% | 2.4% | 3.0% |
| Google Cloud Vision | 0.6% | 2.4% | 2.0% | 2.5% | 3.6% |
| Apple Live Text | 0.8% | 3.8% | 3.5% | 5.5% | 없음 |
| Tesseract.js | 1.2% | 8.5% | 7.0% | 9.0% | 11.5% |
Tesseract는 CJK와 RTL 언어에서 크게 뒤집니다. ChatGPT와 Google Cloud Vision 모두 잘 처리하며, ChatGPT가 약간 더 좋습니다.
혼합 언어 문서(예: 일영 슬라이드)에서는 ChatGPT가 최고 — 문서 중간에 언어를 전환할 수 있으니까요. Tesseract는 언어 조합을 미리 선택해야 합니다(ToolKoala에서 "English + 한국어" 같은 프리셋을 노출합니다).
프라이버시와 비용
여기가 순수 정확도를 넘어 흥미로운 부분.
| 도구 | 프라이버시 | 비용 (영수증 1000장) | 오프라인? |
|---|---|---|---|
| Tesseract.js | 로컬만 — 브라우저를 떠나지 않음 | $0 | 예 |
| Apple Live Text | 기기 내 | $0 | 예 |
| Google Cloud Vision | Google에 업로드 | ~$1.50 | 아니오 |
| ChatGPT GPT-4o vision | OpenAI에 업로드 | ~$10 | 아니오 |
영수증 1,000장을 매달 처리하는 작은 사업자에게:
- ChatGPT API: 월 $10, 이미지 복잡도에 따라 청구액 증가.
- Google Cloud Vision: 월 $1.50, 매우 저렴.
- Tesseract.js 또는 Apple Live Text: 월 $0. 영어/EU 언어는 Apple이 더 정확; CJK는 올바른 언어 프리셋을 선택하면 Tesseract가 더 정확.
프라이버시 민감 콘텐츠 — 의료 기록, 신분증 스캔, 금융 문서, 회사 내부 스크린샷 — 의 경우, 정확도와 무관하게 ChatGPT와 Google Cloud Vision은 제외됩니다. 선택지는 Apple Live Text(Mac/iPhone에서 한 장씩) 또는 Tesseract.js(배치 / 비-Apple 플랫폼 필요)로 줄어듭니다.
무엇을 선택할까
ChatGPT GPT-4o를 선택, 다음의 경우:
- 손글씨를 디지털화하고 정확도가 프라이버시보다 중요할 때.
- 작은 배치(< 100장)고 돈 내는 게 신경 쓰이지 않을 때.
- 콘텐츠가 민감하지 않을 때.
Google Cloud Vision을 선택, 다음의 경우:
- 10,000장 이상의 이미지를 저렴하게 처리해야 할 때.
- 백엔드 서비스에 통합할 때.
- 콘텐츠가 민감하지 않을 때.
Apple Live Text를 선택, 다음의 경우:
- Mac/iPhone을 쓸 때.
- 한 장씩 가볍게 처리할 때.
- 텍스트가 주로 영어, 스페인어, 프랑스어, 독일어 등 주요 라틴 문자 언어일 때.
Tesseract.js / ToolKoala 를 선택, 다음의 경우:
- 프라이버시가 중요할 때(이미지가 브라우저를 떠나지 않음).
- 호출당 결제 없이 CJK나 다른 비-라틴 문자 지원이 필요할 때.
- 가끔 배치 작업이 있고 API 키 설정을 하기 싫을 때.
- 비-기술 사용자에게 OCR을 보여줄 때(브라우저 도구는 설치도 가입도 필요 없음).
Tesseract의 정직한 약점
Tesseract 기반 도구를 유지보수하므로, 알려진 약점을 솔직히 말합니다:
- 손글씨: 약함. Tesseract를 이걸로 쓰지 마세요.
- 스타일 폰트: 약함. 캘리그래피, 장식 폰트, 손으로 칠한 간판 — 모두 문제.
- 저해상도 이미지: 약함. 텍스트 높이 ~200 px 이하는 힘듦.
- 혼합 방향/곡선 텍스트: 잘 처리 못함.
- 크게 기울어진 이미지: 사전 회전 필요.
입력이 위 중 하나라면 ChatGPT나 Google Cloud Vision을 쓰세요. 브라우저에서 업로드 없이 깨끗한 인쇄 텍스트라면 Tesseract.js는 견고합니다.
일상에서 실제로 쓰는 것
개인 워크플로우:
- 휴대폰으로 찍은 영수증과 청구서: Apple Live Text(Photos에서 이미지 길게 눌러 → 텍스트 복사). 즉시, 기기 내.
- YouTube 튜토리얼의 코드 스크린샷: ToolKoala 이미지→텍스트. 영어 프리셋. 재압축된 썸네일에서 복사/붙여넣기보다 깔끔.
- 책 사진에서 인용: ToolKoala나 Apple Live Text. 가까이 있는 것.
- 손글씨 노트(드묾): 데스크톱 ChatGPT 앱. 이미지를 붙이고 "줄바꿈을 유지하고 정확히 옮겨라" 라고 요청.
- 세금 신고용 대량 영수증(연 1회): 한 번 쓰고 어떻게 썼는지 까먹은 Python 스크립트로 Google Cloud Vision 호출.
전용 OCR 서비스에 돈을 낸 적이 없습니다. "캐주얼 용도는 기기 내 무료 + 어려운 케이스는 LLM + 배치는 Google Cloud Vision" 조합이면 다 커버됩니다.
결론
2026년의 OCR은 더 이상 단일 카테고리가 아닙니다. 적어도 셋으로 나뉩니다:
- 문자 인식(Tesseract, Apple Live Text): 빠름, 무료, 오프라인. 깨끗한 텍스트에 좋음.
- 클라우드 OCR API(Google Vision, AWS Textract, Azure): 확장 가능, 이미지당 저렴. 배치에 좋음.
- LLM을 OCR로(GPT-4o, Claude vision, Gemini): 비쌈, 느림, 그러나 문맥 이해. 어려운 케이스 최적.
마케팅이 아닌 작업에 따라 선택하세요. 업로드하기 싫은 것 — 청구서, 신분증, 의료, 내부 문서, 초안 — 을 처리한다면 답은 기기 내 두 옵션 중 하나지, 지금 한창 떠도는 AI가 아닙니다.
ToolKoala OCR 시도해 보기
지금 무료, 가입 없음, 업로드 없는 OCR 도구가 필요하다면 ToolKoala 이미지→텍스트 는 다음을 지원합니다:
- 12+ 언어, 영어, 중국어(간체+번체), 일본어, 한국어, 스페인어, 프랑스어, 독일어, 러시아어, 아랍어, 포르투갈어, 이탈리아어 포함
- 혼합 언어 모드 (English + 简体中文, English + 한국어)
- 인라인 편집 출력 (복사 전 OCR 오류 수정)
.txt다운로드
DevTools → Network 탭을 열어 업로드 없음을 확인할 수 있습니다.