본문 바로가기
IT 전산/개발

윈도우에서 Tesseract OCR 설치 및 파이썬에서 활용하는 방법

by 멍뭉부 2024. 1. 16.
728x90

안녕하세요,

윈도우 환경에서 Tesseract OCR을 설치하고 파이썬에서 이를 활용하는 방법을 소개하려고 합니다.

Tesseract OCR은 오픈 소스 광학 문자 인식 엔진으로, 이미지에서 텍스트를 추출하는 데 매우 유용합니다.

파이썬과 함께 사용하면 다양한 자동화 및 데이터 추출 작업을 손쉽게 수행할 수 있습니다.

Tesseract OCR 설치하기

1단계: 설치 파일 다운로드

2단계: 설치 프로세스 진행

  • 다운로드한 설치 파일을 실행합니다.
  • 설치 마법사의 지시에 따라 설치를 진행합니다.
  • 설치 중 'Additional language data' 부분에서 필요한 언어를 선택할 수 있습니다.
  • 설치는 끝입니다.

 

파이썬에서 Tesseract OCR 사용하기

1단계: 파이썬 코드 작성

import pytesseract
from PIL import Image

# Tesseract 경로 설정 (필요한 경우)
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 이미지에서 텍스트 추출
image = Image.open('example_image.png')
text = pytesseract.image_to_string(image, lang='eng')
print(text)

 

참고로 파이썬에서 Tesseract OCR을 사용하기 위해, pytesseract 라이브러리가 필요하니 주의해주시기 바랍니다.
(없으면 모듈 설치 고고)

 

728x90