[Windows 7] Tesseract OCR 사용해 보기 Computer Tip

지난번에 Docker로 Tesseract라는 OCR을 사용해보는 것을 살펴본 적이 있습니다.

그런데 윈도우7에서 필요에 따라 위의 OCR을 돌려보려고 Docker Toolbox를 설치하고
돌려보았더니 오류가 발생했습니다.

그래서 이번에는 윈도우7에서 직접 Tesseract.exe를 설치하여 작업하는 것을 정리해 봅니다.

구글에서 "Tesseract windows download" 를 검색합니다.

Binaries for Windows 중에 4.0.0 을 선택합니다.

다른 것도 해 보았지만 결국 성공한 것은 "Windows Installer made with MinGW-w64" 입니다. 32비트에서도 동작했습니다.

다른 이름으로 저장하여 봅니다. (직접 실행해도 상관없습니다)

C:\work\ocr 이라는 폴더를 만들어 저장했습니다.

실행해 봅니다.

"Next"를 누릅니다.

"I accept the ..." 체크박스를 선택하고 "Next"를 누릅니다.

디폴트로 선택하고, 다음

디폴트로 설치하면 영문만 판독하는 데이터만 설치됩니다. math 나 kor 등 선택하기 위하여
Additional Language download를 누릅니다. (필요한 것만 설치해도 됩니다)

디폴트 위치에 설치합니다.

디폴트 그룹에 다음

개별 언어 설치를 하느라 시간이 조금 소요됩니다. (수분... 이상)

이렇게 tesseract 가 설치되었습니다.

이제는 환경변수 path 에 설치폴더를 넣어 cmd.exe 에서 수행할 수 있도록 합니다.

탐색기를 열어 설치된 "C:\Program Files\Tesseract-OCR" 까지 가서 복사합니다.

시작>컴퓨터>속성을 선택하고,

"고급 시스템 설정"을 선택하여 시스템 속성이 뜨면 "환경 변수"를 누릅니다.

환경변수에서 상단 path (하단 시스템 변수의 PATH 를 선택해도 됩니다)를 선택하고 "편집"을 누릅니다.

변수 값의 뒤에 ";C:\Program Files\Tesseract-OCR" 를 넣어 줍니다.
(세미콜론으로 구분이 되므로 세미콜론으로 시작합니다)

이제 cmd를 실행해봅니다.

"tesseract -v" 명령을 수행해보면 버전이 4 임을 알 수 있습니다.

이제 OCR을 수행할 화면을 캡쳐하기 위하여 캡쳐도구의 사각형 캡쳐를 한 상태에서 새로 만들기를 눌러

글씨를 읽어올 특정 영역을 선택하고,

C:\work\ocr 에 test01.PNG 로 저장합니다.

이제 CMD 창에서 C:\work\ocr 로 이동한 후,
다음의 명령을 내려 OCR을 수행합니다.

"tesseract test01.PNG test01.utf8.txt -l kor+eng"

그러면 해당 폴더에 test01.utf8.txt 파일이 생기는 것을 확인할 수 있습니다.

해당 결과의 파일을 메모장으로 읽으면 한글은 안 깨지는 것처럼 보이지만
모두 한줄에 보여 보기 힘듧니다.

그래서 워드패드에서 열면 해당 글자가 깨져보입니다.

그 이유는 UTF8 로 인코딩된 결과의 텍스트로 저장되어 있기 때문입니다.

이를 다시 윈도우에서 잘 읽기 위한 EUC-KR 글자로 읽어오기 위하여,

네이버에서 "마니컨버터"를 찾아 첫번째 결과를 선택합니다.

다운로드 받아 바로 실행합니다.

모두 기본으로 설치합니다. "다음>"

"동의함"

"다음"

"설치"

"마침"

이제는 해당 컨버터를 실행하여 해당 폴더의 변환할 텍스트 파일을 선택한 후, "UTF-8" 에서 "ANSI (EUC-KR)" 로 변환을 선택하고 파일선택 및 변환시작을 누른다음 종료합니다.

이제 결과 확인을 위하여 결과 텍스트 파일을 워드패드에서 열려고 하면,

위와 같이 텍스트를 얻을 수 있고,
이제는 복사 붙여넣기를 할 수 있습니다.


어느 분께는 도움이 되셨기를...


덧글

  • ㅇㅇ 2019/03/19 17:35 # 삭제 답글

    탐구 과제로 이 블로그를 참고하고있는데 막히는 부분이 있어서 댓글 남깁니다. 개별언어 설치 시 영어와 한글 설치중 404 에러가 뜨는데 어떻게 하면 해결할 수 있나요??
  • 지훈현서아빠 2019/03/19 18:07 #

    아마도 해당 data를 가져오는데 링크가 꺠져 있거나 한 것 같습니다.
    별도로 data를 다운로드시켜 어딘가에 넣는 방법을 살펴보십시오.
    (제가 해당 내용을 테스트할 환경이 되지 못하네요 T.T)
  • 왕왕초보자 2019/05/12 20:10 # 삭제 답글

    Python에 Tesseract를 설치하려고 구글을 누비고 다녔지만, 경로 설정에서 막혔어요.
    그러다, 경로 앞에 세미클론이 있다는 것을 지훈현서아빠님이 알려주셔서 세미콜론을 넣으니 CMD에서 나와요. ^^
    정말 감사드려요.
    여기서 좌절하고 포기할 뻔 했거든요.
  • 지훈현서아빠 2019/05/12 22:57 #

    도움이 되셨다니 저의 보람입니다~ ^^
댓글 입력 영역

구글애드텍스트