tesseract ocr是原先惠普开发的图像识别类库,能够识别和处理各种图形图像文件类型,提取的内容自动生成文本(TXT)文件,软件处理速度快,准确度高,是同类产品中最好的。
软件简介:
将文本转换为图形并不是一件太困难的任务,但试图从图像文件中提取单词可能相当麻烦。这种工作需要一种特殊类型的设备,更确切地说是一种光学字符识别(OCR)功能。
为这些目的而创建的顶级引擎之一是Tesseract,而那些打算尝试并使用它的人可以使用Tesseract-OCR软件包。
软件特色:
多设置安装
在使用此工具之前,最好注意设置过程,因为它可能会提供一些有用的附加功能,这些附加功能在处理许多外语文档时可能需要。
更确切地说,'语言数据'部分使您可以选择所需的语言,并且还可以添加数学和方程式检测模块(如果您计划提取此类型的数据)。
无需通过命令提示符执行GUI和快速执行
只要Tesseract-OCR安装到您的系统上,您就可以通过命令行进行部署,并立即开始使用它。在处理目标文件时只需要应用几个参数,并且它们已被很好地解释。
最重要的值是'pagesegmode'参数,它们主要涉及页面分割和图像处理。
快速操作和广泛支持的输出
Tesseract-OCR的主要优点之一是它能够识别和处理各种图形图像文件类型。这个实用程序的另一个好处是它的处理速度应该可以满足任何用户的需求。
当保存提取的内容时,程序会在开始任务之前使用您设置的名称生成文本(TXT)文件。
适合所有用户的简单工具
所有事情都考虑到了,对于经验较少的用户来说,这个命令行应用程序应该不难理解,因为它使用的语法非常简单。它处理速度快,准确度足以被认为是同类产品中最好的。
使用方法
下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后目录如下:
附录:
tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。
使用Tessract-OCR引擎识别验证码
打开DOS界面,输入tesseract:
如果出现如上输出,表示安装正常。
我准备了一张验证码
结果为:
附录:
Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件
例如:
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)
-psm 7 表示告诉tesseract code.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3
configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名
同类佳作
-
- Poedit Pro Repack(汉化必备工具) V2.2.5561 电脑绿色版 下载
- 5.9万 | 18.7 MB
- 是一款汉化软件必备工具
-
- SC封装工具 v3.0.0.19官方版 下载
- 8.9万 | 35.6 MB
- SC封装工具
-
- Krypton Toolkit(C#界面库) v4.3.0官方版 下载
- 1.6万 | 62.2 MB
- Krypton Toolkit(C#界面库)
-
- eFlip standard(电子书制作工具) v4.3.4官方版 下载
- 5.2万 | 94.2 MB
- eFlip standard(电子书制作工具)
-
- Leopard硬盘安装助手 绿色版 V0.3 下载
- 5.万 | 425 KB
- Leopard硬盘安装助手
-
- KM盒子手机APP制作软件 V7.2 官方版 下载
- 8.6万 | 53.1 MB
- KM盒子手机APP制作软件
-
- SSDT必备组件 v15.5.1 官方版 下载
- 7.4万 | 1.2 MB
- SSDT必备组件
-
- 友益文书软件 v9.4.3官方版 下载
- 6.1万 | 75.2 MB
- 友益文书软件
近期新游
精选专题
话题问答
- 2022-06-24金铲铲之战驯龙敖兴阵容玩法攻略
- 2022-06-24金铲铲之战九星界龙阵容玩法攻略
- 2022-06-24金铲铲之战重骑熊阵容玩法攻略
- 2022-06-24原神久岐忍邀约任务攻略
- 2022-06-26数码宝贝新世纪番长飞虫兽天赋加点推荐
- 2022-06-24阴阳师百鬼乱狱第四关通关攻略
- 2022-06-24王者荣耀戈娅玩法攻略
- 2022-06-26金铲铲之战s7泥头车阵容攻略
- 2022-06-24堆叠大陆第三章玩法攻略
- 2022-06-23哈利波特魔法觉醒染发魔药制作攻略
火爆专区
最新资讯
-
- 职业小课堂:“ 数智技术”指的是以下哪两项技术的融合
- 1972024-11-22
-
- 金融小常识:以下哪种资本形式主要专注于长期投资
- 1592024-11-22
-
- 蚂蚁庄园今日答案11月23日(今日已更新)
- 242024-11-22
-
- 蚂蚁庄园11月23日最新
- 2472024-11-22
-
- 2024今日小鸡最新答案11.23
- 1602024-11-22
-
- 当「冬日限定」普攻时,手里挥舞的拐杖糖断掉会进入暴怒状态,第4A使用平底锅拍飞敌人?
- 2792024-11-22
-
- 露玛岛怎么联机的
- 1362024-11-22
-
- 《真三国无双:起源》武将赵云介绍 子龙一身是胆
- 2732024-11-21