Professional Documents
Culture Documents
从pdf图片中提取文字方法
从pdf图片中提取文字方法
Snaglt 文字提取
Sn.agIt 是一款功能强大的图片捕捉工具,但是很多朋友可能不知
道,它还有文字捕捉的功能,能将文字从图片中提取出来。目前它的最新
版本为 7.O。启动 SnagIt 7.O,在左侧选中“窗口文字”(如图),在左侧
选择输入位置(比如屏幕、区域、窗口等),输出位置(比如打印机、剪贴板、
文件等)。设置完成后,.回到要捕捉文字的文件窗口,按下“捕获”快捷
键,即可将文字提取出来。
此时我们会发现提取的文字中有很多空格或出现段落错乱等情况,
这时我们可以用文字编辑工具进行重新编排。这里以 WPS Offi.ce 2003
为例:将提取文字复制粘贴至新文档中,依次选择菜单“工具”→“文
字”下的 “段落重排”→“删除段首空格”→“删除空段”命令,这时
文章已经变得很整齐了。
文字识别工具
如果你需要将图片(PDF 文件)中的文字提取出来。我这里就教你一个方
法吧。
首先可以利用 Office 2003 组件。运行 Office 2003 安装包,或者已安装
的就出现以下图片。
不过刚装的就少了这个过程了。接着在勾选 “选择应用程序的高级自定
义”这里要注意的是刚装的在选择安装时要选自定义,而不是默认的“
经典”
打开 Office 工具→Microsoft Office Document Imaging,按提示选择
安装“扫描、OCR 和索引服务筛选器”和“Microsoft Office Document
Image Writer”
进行更新完毕后。在安装 Microsoft Office Document Imaging 组件后,
Windows XP 系统会自动安装一个名为“Microsoft Office Document
Imaging Writer”的打印机(虚拟打印机)。Imaging 组件可以通过这个
虚拟打印机,将 PDF 文件所保存的信息识别,从而达到将它直接转换输
出到 Word 等文字编辑工具中的目的。
第二步:用 Adobe Reader 打开想转换的 PDF 文件,接下来 选择 “文件
→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置
为 “Microsoft Office Document Image Writer”
确认后将该 PDF 文件输出为 MDI 格式的虚拟打印文件
确认后系统会提示“必须在您执行此操作前识别该文档中的文本(OCR)。
这可能需要一些时间”,不管它,点击确定即可
识别完成后,系统会自动调出 Word,这时你就可以看到,刚才还不能编
辑的文字,乖乖的出现在 Word 编辑窗口中
图片转换成文字---将图片中的文字提取出来(OCR 识别系统)
利用 Off ice 20 03 从图 片中提 取文字
注明:(第一步:用数码相继拍下需要转换的文字图片,最好用明亮的自然光。第二步:将图
片文件 JPG 格式用画图工具读入→另存为 TIF 格式。第三步:使用 Microsoft Office Document
Imaging,打开已转换好的 TIF 图片。第四步:在 Microsoft Office Document Imaging 中,点
击工具→使用 OCR 识别文本第五步:在 Microsoft Office Document Imaging 中,点击工具→
将文本发送到 WORD 第六步:打开发送过来的 WORD 文档,进行编辑。)
如何从图片中提取文字
Snaglt 文字提取
文字识别工具