100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > Python+Tesseract-OCR识别图片文字并保存到word文档

Python+Tesseract-OCR识别图片文字并保存到word文档

时间:2024-04-08 08:22:55

相关推荐

Python+Tesseract-OCR识别图片文字并保存到word文档

目录

使用Python+Tesseract-OCR识别图片文字并保存到word文档安装Tesseract-OCR配置Tesseract-OCR通过CMD验证Tesseract-OCR工作安装pytesseract代码示例示例验证注意事项示例图片结果展示学习过程小结

使用Python+Tesseract-OCR识别图片文字并保存到word文档

本文通过使用Tesseract-OCR进行图片文本识别。并通过python进行后续处理把识别的文本保存到word文档。本文仅作为入门,由于对于中文图片的识别率并不高,需要后续优化。

安装Tesseract-OCR

Tesseract是一个开源文本识别引擎,通过Apache 2.0授权可用。可以直接使用,或者通过接口编程从图片提取文本,该引擎广泛支持各种语言,本文以Python为例说明:

去Windows安装包下载页面,选择需要的位数版本.运行安装包,一路下一步直至安装完成;

配置Tesseract-OCR

添加安装目录到系统环境变量path,比如:

//添加安装目录到系统pathC:\Program Files (x86)\Tesseract-OCR;

通过CMD验证Tesseract-OCR工作

安装pytesseract

//cmd运行下列命令pip install pytesseract

代码示例

from PIL import Imageimport pytesseractimport osimport iotessdata_dir = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'txt = pytesseract.image_to_string(Image.open('./img/0804.jpg'), lang='chi_sim', config=tessdata_dir)print(txt)if not os.path.exists('./result'):os.mkdir('./result')with io.open('./result/test.doc', 'w') as fp:fp.write(txt)

示例验证注意事项

中文图片需要使用参数lang=‘chi_sim’

图片路径可自己设定,比如:D:/test.jpg

如果安装Tesseract-OCR时未安装该数据包,可重新运行安装程序,并选择额外的语言包进行安装

为避免系统变量设置问题程序不能找到训练数据,建议设置tessdata_dir参数

print(txt)为调试使用,可删除或者注释掉

示例图片

结果展示

识别率不够高,需要继续优化,希望有高手指点(抱拳)

学习过程小结

学习流程图:

Actions speak louder than words.

210 = 1024.

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。