≡奥德赛公会≡ » 奥德赛奇幻FTP » 给予那些苦于寻找OCR版本的同学------ABBYY FineReader


2007-5-10 23:57 magusylian
给予那些苦于寻找OCR版本的同学------ABBYY FineReader

[size=5][b]文字识别转换的好帮手——ABBYY FineReader 8.0[/b]
[/size]

看PDF格式的电子书时,尤其是遇到那些直接由图片作成的PDF格式的电子书,有时
会想把大段的文字或图象摘下来,却苦于枯燥的手工输入。翻译和制作电子书时更
是如此。下面介绍的软件可以将效率大大提高,自己动手制作OCR版本。

ABBYY FineReader是一款俄罗斯的文字识别软件。
该软件最主要的特点是:[color=red]对英文的识别能力非常强,正确率非常高,使用简单.[/color]

功能:
支持多国文字(暂不支持中文,日文等亚洲文字),还支持[color=red]彩色文件识别[/color]、[color=red]自动保留原稿插图[/color]和[color=red]排版格式[/color]以及后台批处理识别功能,能够直接在 [color=red]MS Word、MS Excel[/color]、WordPerfect 及 Word Pro 中扫描和读取文件、信件或各类表格,并且能存成 [color=red]RTF、TXT、DOC[/color]、CSV、XLS 或 HTML 等格式。它能保持表格与图片中原始的多栏页面设计。FineReader Professional 在识别方面支持 ADF (自动进纸)扫描仪,批处理,拼音检查,强大的表格工具,多语言文件,背景运算和学习新的字体。

ABBYY FineReader 8.0(目前最高版本)在一个应用程序中提供三个不同的PDF转换功能:

打开 PDF 文件并且转换它成可编辑的格式(例如 Microsoft Word 或 Excel)。
打开 PDF 文件,执行少量正文编辑,然后保存回 PDF。
从纸上文档创建可搜索的 PDF 文件。

==========================================================

以下是我用Magic of Faerun的PDF文件进行的简单测试:

按照菜单栏的1.2.3.4步就能完成简单的转换。

[b][size=3][color=blue]第一步Open Image[/color]
[/size][/b]打开PDF文件(同样支持图片文件),系统会进行批量打开操作,
接着出现4个展开的窗口,
IMAGE窗口是原图,竖列的第一个图标是自动对图片进行文字块的识别(一些花样的标题字体也能识别出来,但大多数情况下,在转换成WORD文档时是乱码)。
下边的几个图标是自定义转换区域、抽取表格(也可以把不是表格的作成表格,感觉这个比EXCEL还方便)、抽取图片等。

[img]http://farm1.static.flickr.com/193/492543384_5ab726bd13_o.jpg[/img]

[b][size=3][color=blue]第二步Read[/color]
[/size][/b]TEXT窗口就是转换后的格式,可保存成WORD等多种可编辑格式。
在选定要转换的文字区域后,按下菜单栏的2 Read就可以在TEXT栏里看到转换后的文字了,而且转换后的[color=red]排版格式和原图相同[/color]。

[img]http://farm1.static.flickr.com/214/492543382_3913c66863_o.jpg[/img]

[b][size=3][color=blue]第三步Check spelling[/color]
[/size][/b]在转换后的TEXT窗口中,系统认为有拼写错误的单词都会用兰色标出,按下Check spelling按钮,弹出来的对话框就会帮助你改错误。

[b][size=3][color=blue]第四步Save[/color]
[/size][/b]将转换好的TEXT窗口中的文字转换成WORD等格式的文件。

======================================

根据原图片字体的不同,转换后的文字的错误率也会有所差别。
一般字体的辨识正确率较高,当然,这要比人工录入效率高很多。

原版(多国语言版)的在emule上有下,不过文件很大,170M。
介绍和使用方法:[url=http://lib.verycd.com/2006/01/26/0000086868.html]http://lib.verycd.com/2006/01/26/0000086868.html[/url]

我用的是36M的版本,应该是单英文版的,基本的功能都支持。有需要的再上传FTP。

安装完后需用注册机注册,否则只能试用15天。
安装说明:
1. 用keygen生成序列号;(压缩包里自带)
2.注册和激活。
安装完成后马上运行 ABBYY FineReader Professional v8.0.706 ,会要求激活。未注册版本只能试用15天全功能。
点取消后在HELP菜单栏里选择“Activate The program now”,在需要输入serial number的地方输入由keygen产生的序列号,
接着选择“by fax or phone”,然后将“Installation ID”中的代码复制到keygen(注册机)中的相映位置,算出激活码,
再复制到注册页面的激活码框中就OK了。

希望会对翻译或制作电子书的同学有所帮助。

------------------------------------------------------
[color=Blue]magusylian ,能给传个这软件到FTP #3么?谢谢[/color]

2007-5-11 00:51 青萝
多谢楼主的介绍,这就去下载试试看。另外我现在用的是一款功能与此类似的名叫“文通慧视”的国产软件,效果也不错。[s:1]

2007-5-11 01:31 lofeiy
请问这软体是用英文显示吗?(因为我的电脑显示简体中文会有问题)
若是的话,我很想要耶,不晓得能不能上传到ftp,若是不成的话我再想办法好了。[y:18]

2007-5-11 18:07 magusylian
to lofeiy:
是英文显示

识别中文的话还是用国产软件好....
不过说实话中文还真是不好识别,不仅占的BYTE多,规律更不好找.

上传完毕.

2007-5-12 15:53 lofeiy
[quote]原帖由 [i]magusylian[/i] 于 2007-5-11 18:07 发表 [url=http://www.odyguild.net/bbs/redirect.php?goto=findpost&pid=42337&ptid=7049][img]http://www.odyguild.net/bbs/images/common/back.gif[/img][/url]
to lofeiy:
是英文显示
识别中文的话还是用国产软件好....
不过说实话中文还真是不好识别,不仅占的BYTE多,规律更不好找.
上传完毕. [/quote]

謝謝magusylian,已經下了,有空會趕快裝來試試 [s:1]

2007-5-13 14:02 一击脱离
谢谢lz的介绍,总是在找好的OCR软件,如果能对中文的支持好一些的话就完美了!

2007-12-8 09:48 mqw301502
我用magusylian前辈上传的算号器似乎不能注册成功,不过我从电驴上找到一个能用的,大家需不需要我上传上来?[s:1]

2007-12-9 11:46 Ericooo
我倒有破解pdf的软件,只是不太方便放出来,呵呵

2007-12-10 19:34 dickgb
不支持中文嘛?可惜了不然我就可以把一些图片改成WORD了..........

页: [1]


Powered by Discuz! Archiver 5.5.0  © 2001-2006 Comsenz Inc.