Tesseract OCR 설치 및 이미지 텍스트 추출 방법 (완전 가이드)

Tesseract는 이미지 내에 포함된 문자를 인식하여 텍스트 데이터로 변환해 주는 대표적인 오픈소스 OCR(광학 문자 인식) 엔진입니다.
전 세계적으로 가장 널리 사용되는 OCR 도구 중 하나로, 무료로 제공되면서도 매우 높은 인식 정확도와 다양한 기능을 갖추고 있어 실무와 연구 분야에서 폭넓게 활용되고 있습니다.

특히 Windows, macOS, Linux 등 주요 운영체제에서 손쉽게 설치해 사용할 수 있으며, 기본적으로 영어를 비롯해 한국어, 일본어, 중국어 등 다국어를 지원합니다.
한국어 인식 기능은 별도의 언어 데이터를 설치하는 것으로 활성화되며, 이는 국내 사용자들이 한글 문서 처리에 Tesseract를 많이 선택하는 중요한 이유 중 하나입니다.

이번 가이드에서는 Tesseract의 설치 절차를 운영체제별로 자세히 안내하며, 한국어 언어 데이터 추가 방법도 함께 설명합니다.
더불어 터미널이나 명령 프롬프트에서 사용할 수 있는 기본적인 명령어부터, 파이썬 환경에서 Tesseract를 연동하여 자동화하는 방법까지 폭넓게 다룹니다.

뿐만 아니라 OCR 작업에서 인식률을 좌우하는 이미지 전처리 과정—기울기 보정, 그레이스케일 변환, 이진화, 노이즈 제거 등—에 대해서도 실용적인 팁과 함께 소개하여, 더욱 정확하고 효율적인 텍스트 추출을 가능하게 합니다.

이 가이드를 따라 하시면, 초보자도 10분 내외의 짧은 시간 안에 Tesseract OCR 환경을 완벽하게 구축하고, 실무에 바로 적용할 수 있을 정도의 기본 역량을 갖추게 될 것입니다.
텍스트 추출 자동화 및 데이터 처리 프로젝트를 시작하려는 분들께 특히 유용하며, 이미지 내 문서, 명함, 영수증, 스캔 자료 등 다양한 유형의 텍스트를 쉽고 빠르게 디지털화하는 데 아마 여러모로 도움이 될거라 생각합니다. 그럼 지금부터 시작해보겠습니다.


운영체제별 설치 방법

Tesseract는 윈도우, macOS, 리눅스 등 다양한 운영체제에서 사용할 수 있는데, 각 OS별로 설치 과정이 조금씩 다릅니다.
본인의 환경에 맞는 방법을 선택해 설치해 주세요.

윈도우 설치 방법

  • 방법 A: 공식 인스톨러 이용
    Tesseract 공식 GitHub 릴리즈 페이지에서 .exe 파일 형태로 된 최신 설치 파일을 다운로드할 수 있습니다.
    설치 도중 Additional language data files 항목에서 반드시 Korean (kor) 언어 데이터를 선택해 설치해야 한국어 인식이 가능합니다.
  • 방법 B: Chocolatey 패키지 매니저 사용
    PowerShell을 관리자 권한으로 실행한 뒤 아래 명령어를 입력하면 쉽게 설치됩니다.
choco install tesseract
choco install tesseract-languages -y

설치 후 환경변수 PATH에 Tesseract 경로가 포함되어 있는지 꼭 확인하세요.
(환경변수 설정이 잘못되면 명령어 실행 시 ‘tesseract’ 명령을 인식하지 못할 수 있습니다.)

macOS 설치 방법

macOS 사용자는 Homebrew를 이용하는 것이 가장 편리하고 권장되는 방법입니다.
터미널을 열고 다음 명령어를 입력해 설치하세요.

brew install tesseract
brew install tesseract-lang

리눅스 (Ubuntu/Debian) 설치 방법

리눅스 계열에서는 패키지 관리자를 통해 쉽게 설치할 수 있습니다.
터미널에서 아래 명령어를 순서대로 입력하세요.

sudo apt update
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-kor

설치가 완료되면 tesseract --version 명령어로 버전 정보를 확인해 정상 설치 여부를 체크할 수 있습니다.


Tesseract 기본 사용법 (명령줄)

설치가 완료되면 이제 터미널(또는 명령 프롬프트)에서 tesseract 명령어로 실제 텍스트 추출 작업을 해볼 수 있습니다.

  • 단일 이미지에서 텍스트 추출하기
    다음 명령어를 통해 input.png 파일에서 텍스트를 추출하여 output.txt에 저장할 수 있습니다.
tesseract input.png output -l kor

-l kor 옵션은 한국어 언어 데이터를 사용하겠다는 의미입니다.

  • 검색 가능한 PDF 생성하기
    이미지에서 텍스트를 추출해 PDF 파일로 만들고 싶을 때는 다음처럼 명령어를 입력합니다.

 

tesseract input.png output -l kor pdf

이렇게 하면 텍스트 검색과 복사가 가능한 output.pdf가 생성됩니다.

  • 여러 이미지 일괄 처리 (윈도우 명령 프롬프트)
    현재 폴더 내 모든 PNG 파일에 대해 OCR을 자동으로 수행하려면 아래 명령어를 사용하세요.

 

for %f in (*.png) do tesseract "%f" "%~nf" -l kor

각 이미지와 동일한 이름의 .txt 파일이 생성됩니다.


OCR 정확도를 높이는 전처리 팁

OCR 인식률은 이미지 품질과 전처리에 크게 좌우됩니다.
깨끗하고 선명한 이미지를 만드는 것이 매우 중요하므로 아래의 전처리 과정을 꼭 시도해 보세요.

  1. 기울기 보정 (Deskew)
    문서나 이미지가 약간이라도 기울어져 있다면 인식률이 급격히 떨어집니다.
    이미지 편집 도구나 OpenCV 등으로 먼저 기울기를 바로잡으세요.
  2. 그레이스케일 변환 및 이진화
    컬러 이미지를 흑백(그레이스케일)으로 변환하고, 글자와 배경을 명확히 구분하는 이진화 과정을 거치면 OCR이 더 잘 인식합니다.
  3. 노이즈 제거
    작은 점이나 얼룩 등 불필요한 잡티를 제거하면 텍스트에만 집중할 수 있어 성능이 향상됩니다.
  4. 크기 보정 (Upscale)
    텍스트 크기가 너무 작으면 인식률이 떨어지니, 텍스트 높이가 20px 미만이라면 1.5~2배 정도 확대하는 것이 좋습니다.

전처리 과정은 OpenCV, Pillow 같은 파이썬 라이브러리를 활용해 자동화할 수 있어 대량 이미지 처리 시 매우 효율적입니다.


파이썬 자동화 예제 (pytesseract 활용)

pytesseract는 파이썬에서 Tesseract OCR을 쉽게 사용할 수 있도록 도와주는 라이브러리입니다.
이미지 텍스트 추출을 코드로 자동화할 때 매우 유용합니다.

설치 명령어

pip install pytesseract pillow opencv-python

기본 사용 예제

import pytesseract
from PIL import Image

# 윈도우 사용자의 경우, Tesseract 설치 경로를 명시해줘야 할 수도 있습니다.
# pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

# 이미지 파일에서 한국어와 영어 텍스트 추출
text = pytesseract.image_to_string(Image.open("input.png"), lang="kor+eng")
print(text)

lang="kor+eng" 옵션을 주면 한국어와 영어가 섞여 있는 문서도 더 정확히 인식할 수 있습니다.


자주 발생하는 문제 및 해결법

  • “kor 언어 데이터가 없다” 오류
    Tesseract가 한국어 언어 데이터를 찾지 못하는 경우입니다.
    tesseract --list-langs 명령어로 설치된 언어 목록을 확인하고, kor가 없다면 언어 데이터를 다시 설치하거나 경로 설정을 점검하세요.
  • 텍스트 결과가 엉망인 경우
    대부분 이미지 품질 문제입니다. 전처리 과정(기울기 보정, 이진화, 노이즈 제거 등)을 꼼꼼히 해보세요.
  • OCR 속도가 너무 느림
    이미지 해상도가 지나치게 높거나 불필요한 영역이 많을 때 발생합니다.
    필요한 부분만 crop(자르기) 처리하거나 해상도를 적당히 낮춰 속도를 개선할 수 있습니다.

마무리

이제 이 가이드를 통해 Tesseract OCR의 설치 과정부터 기본적인 명령어 사용법, 그리고 이미지 전처리를 통한 인식률 향상 방법까지 전반적인 내용을 차근차근 익히셨습니다.
아울러 파이썬과의 연동을 통한 자동화 예제도 실습해 보았기 때문에, 단순히 한두 장의 이미지를 처리하는 수준을 넘어 대량의 이미지 파일에서도 효율적으로 텍스트를 추출할 수 있는 실무 역량을 갖추셨을 것입니다.

이제 여러분은 스캔 문서, 명함, 영수증, 각종 이미지 파일 등 다양한 소스에서 텍스트를 정확하게 추출하여 데이터 분석, 문서 관리, 자동화 워크플로우 구축 등 여러 프로젝트와 업무에 바로 적용할 수 있습니다.
더불어 필요에 따라 전처리 방식을 조정하거나, Tesseract 설정을 세밀하게 다듬어 맞춤형 OCR 솔루션으로 발전시키는 것도 충분히 가능할 것입니다.

만약 OCR 정확도를 한층 더 높이고 싶거나, 특정 업무 환경에 최적화된 자동화 파이프라인 구축이 필요하다면 언제든지 문의해 주세요.


Disclaimer: 본 블로그의 정보는 개인의 단순 참고 및 기록용으로 작성된 것이며, 개인적인 조사와 생각을 담은 내용이기에 오류가 있거나 편향된 내용이 있을 수 있습니다.