파이썬 이미지 OCR

2020. 5. 10. 01:03

1. OpenCV 설치가 필요 (이미지 리딩)

- https://076923.github.io/posts/Python-opencv-1/

ㆍpython -m pip install opencv-python

Python OpenCV 강좌 : 제 1강 - OpenCV 설치 | 076923

OpenCV

076923.github.io

2. OpenCV 에러 유형 中 -215 : 경로나 파일명을 잘못 지정해서 읽어오지 못한 경우를 뜻함

- https://stackoverflow.com/questions/43572387/error-215-size-width0-size-height0-occurred-when-attempting-to-display-a?noredirect=1&lq=1

Error (-215) size.width>0 && size.height>0 occurred when attempting to display an image using OpenCV

I am trying to run a simple program that reads an image from OpenCV. However, I am getting this error: error: ......\modules\highgui\src\window.cpp:281: error: (-215) size.width>0 && size.

stackoverflow.com

3. 테서렉트 설치 참고사이트 : http://m.blog.daum.net/geoscience/1266?category=7023

테서랙트(Tesseract): 파이썬에서 이미지의 광학 문자 인식(OCR)하기

안녕하세요? 이번 글에서는 이미지에 들어 있는 문자를 읽어 텍스트로 변환해주는 광학 문자 인식(Optical Character Recognition; OCR)을 파이썬에서 적용해 보도록 하겠습니다. 실습에 사용할 이미지는

blog.daum.net

4. Tesseract at UB Mannheim 설치

- 윈도우버전 설치 : https://github.com/UB-Mannheim/tesseract/wiki

ㆍtesseract-ocr-w64-setup-v5.0.0-alpha.20200328.exe (64 bit) resp. 설치 (본인 환경에 맞게)

UB-Mannheim/tesseract

Tesseract Open Source OCR Engine (main repository) - UB-Mannheim/tesseract

github.com

5. 영문 인식도는 높은 편이며, 한글의 경우 일부 옵션 조정을 통해 정확도를 높일 수 있다. (preserve_interword_spaces, psm)

- https://niceman.tistory.com/155

파이썬(Python) - 머신러닝 프로젝트(1) - OCR 이미지 문자열 추출(Tesseract)

파이썬 Tesseract - OCR 활용 설명 실무에서 머신러닝을 활용한 프로젝트를 진행하게 되었습니다. 우선 이미지에서 한글 및 영문을 텍스트를 출력 후 -> 데이터 정제 -> 기계학습 -> 데이터 확인 순으�

niceman.tistory.com

6. OCR 정확도 개선을 위한 이미지 전처리

1) 이미지를 목적에 맞게 자르기

2) 색상 전환 (그레이톤)

- https://junyoung-jamong.github.io/computer/vision,/ocr/2019/01/30/Python%EC%97%90%EC%84%9C-Tesseract%EB%A5%BC-%EC%9D%B4%EC%9A%A9%ED%95%B4-OCR-%EC%88%98%ED%96%89%ED%95%98%EA%B8%B0.html

Python에서 Tesseract 사용하기 for OCR

Tesseract 이미지로부터 텍스트를 인식하고, 추출하는 소프트웨어를 일반적으로 OCR이라고 한다. Tesseract는 1984~1994년에 HP 연구소에서 개발된 오픈 소스 OCR 엔진이며, 현재까지도 LSTM과 같은 딥러닝

junyoung-jamong.github.io

□ Google Cloud Vision API 가 더 우수한 성능을 보인다는 게시글 발견

- https://stet-stet.tistory.com/19?category=786054

OCR(현실편) 1 - Vision API로 소설 스캔본에서 글자 인식

저번 포스팅에서는, 한국어, 일본어로 된 소설 스캔본 png 파일의 내용을 tesseract-ocr로 긁을 생각을 했었습니다. 그 후로 굉장히 여러 모로 시도했고, 저번에 언급한 수법들 외에도 후리가나 제거 등을 시도해..

stet-stet.tistory.com

1. Google Cloud Vision API 설치

- http://blog.naver.com/PostView.nhn?blogId=rhrkdfus&logNo=221335357361&categoryNo=29&parentCategoryNo=0

[Python] Google Cloud Vision API 사용하기(사진 넣어 이미지 분석하기)

* Google Cloud Vision API 사용법과 설정을 위해 아래 링크를 이용하세요. [Google Cloud Vision...

blog.naver.com

!! 구글클라우드 비전API 접목시켜서 OCR 해보기

'분석' 카테고리의 다른 글

파이썬을 활용한 업무자동화 (0)	2020.06.02
[spark] 스파크 공부하기 (0)	2020.02.13
분석 경험 정리하기 (0)	2019.04.22
Erlang (0)	2019.04.04
[R] 데이터 불러오기 오류_line 1 did not have 41 elements (0)	2018.10.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

STAT_art

파이썬 이미지 OCR

'분석' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역