python PyOCR 한글 문자 인식 프로그램 작성 TextBuilder

python post logo 파이썬

pyocr.builders.TextBuilder를 사용해서 문자 인식(tool.image_to_string)한 결과는 문자열 형식으로 리턴됩니다. 이 글에서는 TextBuilder의 이해를 돕기 위해 간단한 샘플 프로그램을 작성, 시연해 보겠습니다.

Tesseract 설치하기, PyOCR 설치하기는 이전 글 python PyOCR 문자 인식 프로그램 작성 DigitBuilder를 참조하십시오.

샘플 프로그램 작성

한글 문자 인식 프로그램을 테스트하기 위한 오른쪽 이미지를 파일명 test_kor.png로 로컬 드라이브 (예 : C:¥testocr¥test_kor.png)에 저장합니다.

다음 소스를 드라이브 (예 : C:¥testocr¥testocr_kor_text.py)에 저장합니다.

소스 내용 설명

  • 10-11행 : testocr_kor_text.py가 저장되어있는 디렉토리를 현재 작업 디렉토리로 변경합니다. 자세한 설명은 python 프로그램 .py파일 경로로 현재 작업 디렉토리 변경하기를 참조 하십시오
  • 13-15행 : “C:\\Program Files\\Tesseract-OCR”가 시스템 환경 변수 %PATH%에 등록되어 있지 않다면 추가 합니다.
  • 17-22행 : Tesseract-ocr의 설치에서 문제가 발생했거나 시스템 환경 변수 %PATH%에 설치 경로가 추가 되어있지 않았다면 “OCR tool is not found in path(Tesseract-ocr의 설치 경로)” 메시지를 출력하고 프로그램이 에러 종료됩니다. 그렇지 않다면 OCR tool을 취득해 다음으로 진행합니다.
  • 24-30행 : test_kor.png 이미지 파일을 읽고 TextBuilder(문자열 인식)를 사용해 ‘kor’ 문자로 변환합니다.
  • 32행 : 문자 인식으로 취득한 결과를 화면에 출력합니다.
  • 33행 : “Please Enter to Exit” 메시지를 화면에 출력하면서 Enter키 입력을 기다립니다.

실행 및 결과 확인

다음과 같이 python 또는 py 명령을 실행하여 그 결과를 화면에 출력합니다. 물론 100%의 인식율은 기대하기 어렵습니다.

C:¥testocr>python testocr_kor_text.py
교육부와 시도교육청은 '코로나19' 감염 예방 및 확산 방지를 위해 온 국민이 힘을 모으는
가운데, 유아, 학생과 교직원의 건강과 안전을 최우선적으로 보호하기 위해 2020학년도
개학을 3월 2일에서 3월 9일로 1주일 연기하기로 결정하였습니다.

이에 따라 맞벌이 가정 등 가정 내에서 돌봄이 어려운 유치원, 초등학교, 특수학교 학생들
대상으로 긴급하게 돌봄 수요가 있는 경우, 코로나19 감염병 예방 관련 위생 수칙 준수 및
시설방역 강화 등을 통해 안전한 환경에서 긴급돌봄을 제공하고자 합니다.
Please Enter to Exit
제목과 URL을 복사했습니다