- A+
昨天有位同学问我有没有办法能快速把图片中的文字提取出来,一说这个就知道是在解决原创文章来源问题:)相信很多做SEO的朋友都会遇到这个问题吧?于是我就想着把研究心得写成文章跟大家分享一下。
要想知道如何提取图片中的文字,一定要先知道图片文字识别的原理,这其中有一个概念首先要提一下,那就是OCR,如果知道或听说过什么是OCR,想必你也不会很认真的看这篇文章了,因以下面所提到的方法,可能你已经在用,对吧?
什么是OCR
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
概念普及完毕,接下来我们就正式开工。
工具/软件
1、Microsoft OneNote 2010(microsoft office2010完整版自带,点击下载,796M)
2、ABBYY FineReader 11.102.519 中文版(228M,OCR文字识别软件免费下载,点击链接直接下载)
3、本文案例图片文件,是ZAC老师的《SEO实战密码》图片版中的其中三张,点击下载,351K
步骤/方法
方法1:用Microsoft OneNote 2010
第1步:下载安装office2010,已经安装成功的同学自行跳过,如果连安装都不会,不用继续往下看了。
第2步:打开Microsoft OneNote 2010,新建一个笔记本,如下图所示:
第3步:下载上面提到的本文案例图片文件,打开一张,用QQ截图截取你要提取文字的部分,粘贴到OneNote中,然后在图片上面点右键,选择“复制图片中的文本”。
第4步:打开记事本(强烈建议用notepad++替换系统自带的记事本!)这样就顺利提取到图片中的文字了!
总结
使用Microsoft OneNote提取图片中的文字这个办法简单好用,速度也快,如果你需要识别的图片不多的话,用起来非常顺手。然而它的不足也是显而易见的,我总结下来有以下3点:
1、识别率有待提高;
2、对大篇幅的英文认识不好,中间几乎没有空格,完全没办法阅读;
3、如果待识别的图片达大或者文字过多的话,会出现提取不到图片上的文本的问题。
为了解决以上问题,我又另找了一个功能强大的软件,很好的解决了这些问题。这就是我接下来要讲到的ABBYY FineReader。
方法2:用ABBYY FineReader
ABBYY FineReader是一款真正的专业OCR,它不仅支持多国文字,还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能,能够直接在 MS Word、MS Excel、WordPerfect 及 Word Pro 中扫描和读取文件、信件或各类表格,并且能存成 RTF、TXT、DOC、CSV、XLS 或 HTML 等格式。它能保持表格与图片中原始的多栏页面设计。FineReader Professional 在识别方面支持 ADF (自动进纸)扫描仪,批处理,拼音检查,强大的表格工具,多语言文件,背景运算和学习新的字体。它也完全支持 TWAIN 扫描仪。ABBYY 是世界文档识别、数据捕获和语言软件技术开发商的领航者。其获奖产品 FineReader OCR 软件可以把静态纸文件和 PDF 文件转换成可编辑可管理的电子文档形式,可以大大节省您的时间和精力。
关于这个软件的使用问题,我想大家应该是会安装就会用,我觉得我最大的作用是给大家找到这个好用的工具而已。为了找到一个靠谱的图片文字提取软件,我安装测试了不下10款,这一款是功能最为强大的!
其他提取图片中的文字软件介绍
1、慧眼图像文字识别软件:骗人的,坑爹的货
我是在这篇文章中看到这个软件的,基本上可以判断为是有人故意发的软文了,引导我们去搜索这个软件,基本能找到的地址不是病毒就是需要购买,购买链接打开还是过期的,特别坑爹。其实这个软件就是下面第3个软件(文通慧视)的人为修改版本。
2、尚书七号:国产老牌的OCR软件,在没有找到ABBYY FineReader之前,一直用它。
尚书7号OCR软件是MICROTEK中晶科技公司,向汉王科技购买授权,赠送给用户使用的软件。尚书七号是一款专门为识别文字而研发的软件,尚书七号是应用OCR技术,为满足书籍、报刊杂志、报盘票据、公文档案等录入需求,实现系统管理方式而设计的软件系统。尚书七号OCR软件适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
3、清华TH—OCR 2000 千禧专业版+文通慧视
关于这两个工具的组合使用,我找到一篇比较好的介绍文章,原文在这儿,为防止以后该博客打不开了,我转到这儿来,原文如下:
现在数码相机技术越来越发达,生活中出门在外时看到一些好看的图片,第一个想法就是用相机拍下来,或者是去图书馆看书看到一些好的文章想保存下来时,就会想到用手机或相机拍下来,但是拍摄图片中的文字是图片格式的无法编辑,怎样提取图片中的文字,将图片中的文字转换为可以编辑的文本格式呢?今天我就教大家如何提取图片中的文字,效果图就是用相机拍摄的书本文字图片,然后转换为文本后的效果。
工具/原料
下载:清华TH-OCR2000千禧专业版(32M)
下载:文通慧视图文转换软件(116M)
步骤/方法
先打开我们要转换的图片,任何格式的图片都可以,下面我随便打开一张用相机拍的书本图片,如下图:
然后打开RPX图文转换软件,就像使用QQ截图一样,截取图片中要转换的区域,截取的时候将图片放大一点,如下图:
然后软件会进行自动识别,大约需2秒,识别完成后会弹出一个对话框,如下图:
直接点击“确定”按钮就可以了,完全将图片中文字提取出来了,识别正确率100%,效果图如下:
下面再来看看如何将手写体图片中的文字提取出来,按照上面的步骤先打开一张手体文字图片
转换效果如下:
平时的时候,遇到一些有用的资料想保存时,就可以先用照相机拍成图片存储,如果需要提取图片中的文字,回家后用可以用RPX图文转换软件将图片转换为文本了,非常实用的一个小经验,希望对大家有帮助。
注意事项
用相机拍照片时最好将照片拍得清晰点,对那种很模糊肉眼都不怎么看得清楚的照片,用软件识别也是比较困难的。
上面说的都是拍摄的图片,其他格式图片也是可以的,比如PDF格式,用扫描仪扫描的等等,都是可以用上面的方法进行转换的。
2015-08-10 上午10:52
谢谢分享
2015-02-12 上午9:13
好文如此,无人评,甚为可惜!为方法兄辛勤付出点赞!