🔎 PDF OCR

스캔 PDF에서 텍스트 추출 — 100개 이상 언어, 브라우저에서 실행

🔒 이미지가 기기 밖으로 나가지 않아요. 모든 처리는 tesseract.js (WASM) + pdf-lib를 사용하여 브라우저에서 로컬로 이루어져요. 업로드, 서버, 추적이 없어요.

기능

  • 100개 이상 언어 — 영어, 중국어, 스페인어, 아랍어, 일본어 등 다양한 언어의 텍스트를 인식합니다 — Tesseract 기반.
  • 검색 가능한 PDF 출력 — 보이지 않는 텍스트 레이어를 추가해 스캔본은 시각적으로 동일하게 유지하면서 검색과 복사가 가능해집니다.
  • 일반 텍스트 내보내기 — 추출한 텍스트를 .txt 파일로 내보내 추가 작업에 활용할 수 있습니다.
  • 100% 프라이빗 — OCR은 WASM Tesseract로 브라우저에서 실행됩니다 — 스캔본은 기기를 떠나지 않습니다.

작동 방식

  1. 스캔한 PDF 업로드 — 스캔한 문서를 페이지에 끌어다 놓으세요.
  2. 언어 선택 — 가장 정확한 결과를 위해 문서의 주요 언어를 선택하세요.
  3. OCR 실행 — OCR 실행을 클릭 — 페이지당 1-10초가 걸립니다.
  4. 다운로드 — 검색 가능한 PDF 또는 추출된 .txt 파일을 저장하세요.

활용 사례

  • 오래된 스캔 계약서를 검색 가능하게 만들기
  • 영수증에서 경비 보고용 텍스트 추출
  • 스캔한 책 페이지를 편집 가능한 텍스트로 변환
  • 키워드 검색을 위한 보관 문서 디지털화

자주 묻는 질문

OCR은 얼마나 정확한가요?

깨끗하고 대비가 좋은 스캔본에서는 매우 정확합니다. 손글씨, 흐린 이미지, 아주 작은 글자는 정확도가 떨어집니다.

시간이 얼마나 걸리나요?

보통 페이지당 1-10초이며 기기 성능과 이미지 복잡도에 따라 달라집니다.

PDF가 업로드되나요?

아니요. Tesseract가 WebAssembly로 브라우저에서 실행됩니다 — 업로드되는 것은 없습니다.

여러 언어를 동시에 OCR할 수 있나요?

네. 관련된 모든 언어를 선택하면 Tesseract가 모두 인식하려 시도합니다.

검색 가능한 PDF와 일반 텍스트 출력의 차이는?

검색 가능한 PDF는 원본 스캔본의 모습을 유지하면서 보이지 않는 텍스트 레이어를 덮어 검색/복사가 가능하게 합니다. 일반 텍스트는 인식된 단어만 내보냅니다.

관련 도구