Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1053649
  • 博文数量: 228
  • 博客积分: 474
  • 博客等级: 下士
  • 技术积分: 1930
  • 用 户 组: 普通用户
  • 注册时间: 2010-03-19 18:40
文章分类

全部博文(228)

文章存档

2019年(3)

2018年(12)

2017年(13)

2016年(11)

2015年(55)

2014年(75)

2013年(39)

2012年(2)

2011年(18)

我的朋友

分类: Python/Ruby

2018-05-29 22:22:42

http://blog.csdn.net/u012566751/article/details/54094692  Tesseract-OCR入门使用1

http://blog.csdn.net/u012566751/article/details/54136836  Tesseract-OCR入门使用2

http://blog.csdn.net/u012566751/article/details/54141109  Tesseract-OCR入门使用3

https://github.com/tesseract-ocr/tesseract/wiki/APIExample  Tesseract API Example

 

 

 

 


当前环境:win7,python3.6.0,pyCharm4.5。  python目录是:c:/python3/

安装:

一、安装 tesseract 库

cd c:/python3/Scripts/

python pip.exe install  tesseract

 

二、装程序:

https://github.com/UB-Mannheim/tesseract/wiki

这是非官方下载包,下载并安装4.0:  https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe

安装时注意勾选简体中文,默认安装,安装完毕后,敲命令(看看装的怎么样了,支持什么语言):

cd C:\Program Files (x86)\Tesseract-OCR

tesseract

tesseract -v

tesseract --list-langs  #查看Tesseract-OCR支持语言

 

三、改文件:

C:\Python3\Lib\site-packages\pytesseract\pytesseract.py,找到这两行:

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'tesseract'

改为这样:

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY #tesseract_cmd = 'tesseract' tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

 

四、pyCharm里运行,就可以进行文字识别了:

 (先用画图,用微软雅黑字体,写几个数字、和诗词,保存成:ci.png)

from PIL import Image import pytesseract
text = pytesseract.image_to_string(Image.open('ci.png'), lang='chi_sim') print(text)

 

  

 

...


阅读(598) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~
评论热议
请登录后评论。

登录 注册