文字识别转换的好帮手——ABBYY FineReader 8.0
看PDF格式的电子书时,尤其是遇到那些直接由图片作成的PDF格式的电子书,有时
会想把大段的文字或图象摘下来,却苦于枯燥的手工输入。翻译和制作电子书时更
是如此。下面介绍的软件可以将效率大大提高,自己动手制作OCR版本。
ABBYY FineReader是一款俄罗斯的文字识别软件。
该软件最主要的特点是:
对英文的识别能力非常强,正确率非常高,使用简单.
功能:
支持多国文字(暂不支持中文,日文等亚洲文字),还支持
彩色文件识别、
自动保留原稿插图和
排版格式以及后台批处理识别功能,能够直接在
MS Word、MS Excel、WordPerfect 及 Word Pro 中扫描和读取文件、信件或各类表格,并且能存成
RTF、TXT、DOC、CSV、XLS 或 HTML 等格式。它能保持表格与图片中原始的多栏页面设计。FineReader Professional 在识别方面支持 ADF (自动进纸)扫描仪,批处理,拼音检查,强大的表格工具,多语言文件,背景运算和学习新的字体。
ABBYY FineReader 8.0(目前最高版本)在一个应用程序中提供三个不同的PDF转换功能:
打开 PDF 文件并且转换它成可编辑的格式(例如 Microsoft Word 或 Excel)。
打开 PDF 文件,执行少量正文编辑,然后保存回 PDF。
从纸上文档创建可搜索的 PDF 文件。
==========================================================
以下是我用Magic of Faerun的PDF文件进行的简单测试:
按照菜单栏的1.2.3.4步就能完成简单的转换。
第一步Open Image
打开PDF文件(同样支持图片文件),系统会进行批量打开操作,
接着出现4个展开的窗口,
IMAGE窗口是原图,竖列的第一个图标是自动对图片进行文字块的识别(一些花样的标题字体也能识别出来,但大多数情况下,在转换成WORD文档时是乱码)。
下边的几个图标是自定义转换区域、抽取表格(也可以把不是表格的作成表格,感觉这个比EXCEL还方便)、抽取图片等。
第二步Read
TEXT窗口就是转换后的格式,可保存成WORD等多种可编辑格式。
在选定要转换的文字区域后,按下菜单栏的2 Read就可以在TEXT栏里看到转换后的文字了,而且转换后的
排版格式和原图相同。
第三步Check spelling
在转换后的TEXT窗口中,系统认为有拼写错误的单词都会用兰色标出,按下Check spelling按钮,弹出来的对话框就会帮助你改错误。
第四步Save
将转换好的TEXT窗口中的文字转换成WORD等格式的文件。
======================================
根据原图片字体的不同,转换后的文字的错误率也会有所差别。
一般字体的辨识正确率较高,当然,这要比人工录入效率高很多。
原版(多国语言版)的在emule上有下,不过文件很大,170M。
介绍和使用方法:
http://lib.verycd.com/2006/01/26/0000086868.html
我用的是36M的版本,应该是单英文版的,基本的功能都支持。有需要的再上传FTP。
安装完后需用注册机注册,否则只能试用15天。
安装说明:
1. 用keygen生成序列号;(压缩包里自带)
2.注册和激活。
安装完成后马上运行 ABBYY FineReader Professional v8.0.706 ,会要求激活。未注册版本只能试用15天全功能。
点取消后在HELP菜单栏里选择“Activate The program now”,在需要输入serial number的地方输入由keygen产生的序列号,
接着选择“by fax or phone”,然后将“Installation ID”中的代码复制到keygen(注册机)中的相映位置,算出激活码,
再复制到注册页面的激活码框中就OK了。
希望会对翻译或制作电子书的同学有所帮助。
------------------------------------------------------
magusylian ,能给传个这软件到FTP #3么?谢谢