从pdf图片中提取文字方法

• 从图片中提取文字
方法一 ... 从图片中提取文字
现在许多网站都有 EXE、CHM、PDF 等格式的电子书下载。很多时候这些电

子书可以看，但是其中的内容却不能复制。如果我们需要这些电子书中的
文本内容，是不是就非得要重新输入一遍呢?当然不用这么麻烦。下面我
就告诉大家如何将这些内容从资料中提取出来。
Snaglt 文字提取
　　Sn.agIt 是一款功能强大的图片捕捉工具，但是很多朋友可能不知
道，它还有文字捕捉的功能，能将文字从图片中提取出来。目前它的最新
版本为 7.O。启动 SnagIt 7.O，在左侧选中“窗口文字”(如图)，在左侧
选择输入位置(比如屏幕、区域、窗口等)，输出位置(比如打印机、剪贴板、
文件等)。设置完成后，.回到要捕捉文字的文件窗口，按下“捕获”快捷
键，即可将文字提取出来。
　　此时我们会发现提取的文字中有很多空格或出现段落错乱等情况，
这时我们可以用文字编辑工具进行重新编排。这里以 WPS Offi.ce 2003
为例：将提取文字复制粘贴至新文档中，依次选择菜单“工具”→“文
字”下的 “段落重排”→“删除段首空格”→“删除空段”命令，这时
文章已经变得很整齐了。
文字识别工具
　　文字识别工具简称 OCR 工具。这里我们以清华紫光 OCR 文字识别工具

为例。打开带有文字的图片(如果是电子书籍，可按下“Print Screerl”
屏幕捕获键将其保存为图片)，根据所要提取的文字进行裁剪。启动
OCR，打开已裁减的图片，用鼠标在图片中绘制出待识别的文字区域，按
下工具栏“识别"按钮即可。文字识别结束后，会自动在一个文本编辑器
中打开已提取文字，将结果复制粘贴至其他文档中即可。
方法二 .... 利用 word 提取
如果你需要将图片（PDF 文件）中的文字提取出来。我这里就教你一个方
法吧。
首先可以利用 Office 2003 组件。运行 Office 2003 安装包，或者已安装
的就出现以下图片。
不过刚装的就少了这个过程了。接着在勾选 “选择应用程序的高级自定
义”这里要注意的是刚装的在选择安装时要选自定义，而不是默认的“
经典”
打开 Office 工具→Microsoft Office Document Imaging，按提示选择
安装“扫描、OCR 和索引服务筛选器”和“Microsoft Office Document
Image Writer”
进行更新完毕后。在安装 Microsoft Office Document Imaging 组件后，
Windows XP 系统会自动安装一个名为“Microsoft Office Document
Imaging Writer”的打印机（虚拟打印机）。Imaging 组件可以通过这个
虚拟打印机，将 PDF 文件所保存的信息识别，从而达到将它直接转换输
出到 Word 等文字编辑工具中的目的。
第二步：用 Adobe Reader 打开想转换的 PDF 文件，接下来选择 “文件
→打印”菜单，在打开的“打印”窗口中将“打印机”栏中的名称设置
为 “Microsoft Office Document Image Writer”
确认后将该 PDF 文件输出为 MDI 格式的虚拟打印文件
然后，运行 “Microsoft Office Document Imaging”，并利用它来打

开刚才保存的 MDI 文件，选择“工具→ 将文本发送到 Word
在弹出的“将文本发送到 Word”窗口中选中“所有页面”和“ 在输出
时保持图片版式不变
确认后系统会提示“必须在您执行此操作前识别该文档中的文本(OCR)。
这可能需要一些时间”，不管它，点击确定即可
识别完成后，系统会自动调出 Word，这时你就可以看到，刚才还不能编
辑的文字，乖乖的出现在 Word 编辑窗口中
图片转换成文字---将图片中的文字提取出来（OCR 识别系统）
利用 Off ice 20 03 从图片中提取文字
Office 在 2003 版中增加了 Document Imaging 工具，用它可以把文字给“抠”

出来。
（1）打开传真图片，用抓图软件 SnagIt 对相关的内容进行抓取，然后在“文
件”菜单中选择“复制到剪贴板”命令（也可以用其他抓图软件，当然最简单
的是 Windows 中自带的 Print Screen 键来抓取整个屏幕，然后在“画图”程序
中对不要的部分进行裁剪并保存，然后复制）。
（2）在“开始”菜单的“Microsoft Office 工具”中打开 Microsoft Office
Document Imaging，在左侧窗口中单击鼠标右键，选择“粘贴页面”，把复制
的图片粘贴到 Document Imaging 中，在“工具”中选择“使用 OCR 识别文本”，
Document Imaging 的 OCR 识别程序就会对图片进行识别，完成后选择“工具”
中的“将文本发送到 Word”，程序会自动打开 Word 文档，展现在你面前的就是
从图片中“抠”出来的文字。
提示：一般而言，识别的准确率可以达到 95％以上，但对英文和数字的识别不
是太好。
（将图片中的文字识别出来，所有的 OCR(Optical Character Recognition 的

简称，指光学字符识别技术，是自动识别技术研究和应用中的一个重要领域 )
软件都可以做到，例如清华紫光 OCR 等，一般购买扫描仪的用户大多安装有此
类软件。但需要注意，通常 OCR 软件只能够识别比较规范的印刷体，手写文本目
前在识别上仍有困难。
而在大部分用户都有安装的 Office 2003 套件中，也附带有 OCR 功能的

组件 Microsoft Office Document Imaging。如果您有安装 Office 2003，那么
可以单击“开始”按钮指向程序组“Microsoft Office”中的“Microsoft
Office 工具”选择“Microsoft Office Document Imaging”，即可打开。但
Microsoft Office Document Imaging 不是 Office 2003 默认的安装选项，所以
在初次启用时如果该组件仍未安装，则需要插入 Office 的安装光盘进行安装，
但整个安装过程将自动完成，您只需要按提示信息操作即可。
安装并打开 Microsoft Office Document Imaging 之后，只需通过“

文件”菜单打开需要识别的图片，或者选择“扫描新文档”利用扫描仪将印刷
品的文字扫描到电脑上，再选择“工具”菜单中的“使用 OCR 识别文本”或者
“将文本发送到 Word”，就可以将该图片上规范的印刷体文字识别出来。如果图
片中的文字是“宋体”等比较常见的字体，并且版面比较整齐，基本上所有的
文字都可以正确的识别出来。
另外，由于 Microsoft Office Document Imaging 只支持 MDI、TIF 等图

片格式，需要您准备识别的图片，可能需要利用图片处理软件转换一下，又或
者利用在安装 Microsoft Office Document Imaging 组件后，系统会自动安装
的一个名为“Microsoft Office Document Imaging Writer”的虚拟打印机，
将图片打印成一个 MDI 文件，然后再使用 Microsoft Office Document Imaging
识别。
注明：（第一步：用数码相继拍下需要转换的文字图片，最好用明亮的自然光。第二步：将图
片文件 JPG 格式用画图工具读入→另存为 TIF 格式。第三步：使用 Microsoft Office Document
Imaging，打开已转换好的 TIF 图片。第四步：在 Microsoft Office Document Imaging 中，点
击工具→使用 OCR 识别文本第五步：在 Microsoft Office Document Imaging 中，点击工具→
将文本发送到 WORD 第六步：打开发送过来的 WORD 文档，进行编辑。）
如何从图片中提取文字
现在许多网站都有 EXE、CHM、PDF 等格式的电子书下载。很多时候这些电子书

可以看，但是其中的内容却不能复制。如果我们需要这些电子书中的文本内容，
是不是就非得要重新输入一遍呢?当然不用这么麻烦。下面我就告诉大家如何将
这些内容从资料中提取出来。
Snaglt 文字提取
　　Sn.agIt 是一款功能强大的图片捕捉工具，但是很多朋友可能不知道，它

还有文字捕捉的功能，能将文字从图片中提取出来。目前它的最新版本为 7.O。启
动 SnagIt 7.O，在左侧选中“窗口文字”(如图)，在左侧选择输入位置(比如屏
幕、区域、窗口等)，输出位置(比如打印机、剪贴板、文件等)。设置完成后，.回到
要捕捉文字的文件窗口，按下“捕获”快捷键，即可将文字提取出来。
　　此时我们会发现提取的文字中有很多空格或出现段落错乱等情况，这时我
们可以用文字编辑工具进行重新编排。这里以 WPS Offi.ce 2003 为例：将提取
文字复制粘贴至新文档中，依次选择菜单“工具”→“文字”下的 “段落重排
”→“删除段首空格”→“删除空段”命令，这时文章已经变得很整齐了。
SnagIt (屏幕捕捉程序) v8.1 汉化绿色版：
http://www.52z.com/soft/6431.Html
文字识别工具
　　文字识别工具简称 OCR 工具。这里我们以清华紫光 OCR 文字识别工具为例。打

开带有文字的图片(如果是电子书籍，可按下“Print Screerl”屏幕捕获键将
其保存为图片)，根据所要提取的文字进行裁剪。启动 OCR，打开已裁减的图片，
用鼠标在图片中绘制出待识别的文字区域，按下工具栏“识别"按钮即可。
文字识别结束后，会自动在一个文本编辑器中打开已提取文字，将结果复制粘
贴至其他文档中即可。

从pdf图片中提取文字方法

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

从pdf图片中提取文字方法

Uploaded by

Copyright:

Available Formats

• 从图片中提取文字

方法一 ... 从图片中提取文字

现在许多网站都有 EXE、CHM、PDF 等格式的电子书下载。很多时候这些电

文字识别工具简称 OCR 工具。这里我们以清华紫光 OCR 文字识别工具

方法二 .... 利用 word 提取

然后，运行 “Microsoft Office Document Imaging”，并利用它来打

Office 在 2003 版中增加了 Document Imaging 工具，用它可以把文字给“抠”

（将图片中的文字识别出来，所有的 OCR(Optical Character Recognition 的

而在大部分用户都有安装的 Office 2003 套件中，也附带有 OCR 功能的

安装并打开 Microsoft Office Document Imaging 之后，只需通过“

另外，由于 Microsoft Office Document Imaging 只支持 MDI、TIF 等图

现在许多网站都有 EXE、CHM、PDF 等格式的电子书下载。很多时候这些电子书

Sn.agIt 是一款功能强大的图片捕捉工具，但是很多朋友可能不知道，它

文字识别工具简称 OCR 工具。这里我们以清华紫光 OCR 文字识别工具为例。打

You might also like

从pdf图片中提取文字方法

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

从pdf图片中提取文字方法

Uploaded by

Copyright:

Available Formats

• 从图片中提取文字

方法一 ... 从图片中提取文字

现在许多网站都有 EXE、CHM、PDF 等格式的电子书下载。很多时候这些电

文字识别工具简称 OCR 工具。这里我们以清华紫光 OCR 文字识别工具

方法二 .... 利用 word 提取

然后，运行 “Microsoft Office Document Imaging”，并利用它来 打

Office 在 2003 版中增加了 Document Imaging 工具，用它可以把文字给“抠”

（将图片中的文字识别出来，所有的 OCR(Optical Character Recognition 的

而在大部分用户都有安装的 Office 2003 套件中，也附带有 OCR 功能的

安装并打开 Microsoft Office Document Imaging 之后，只需通过“

另外，由于 Microsoft Office Document Imaging 只支持 MDI、TIF 等图

现在许多网站都有 EXE、CHM、PDF 等格式的电子书下载。很多时候这些电子书

Sn.agIt 是一款功能强大的图片捕 捉工具，但是很多朋友可能不知道，它

文字识别工具简称 OCR 工具。这里我们以清华紫光 OCR 文字识别工具为例。打

You might also like

　　文字识别工具简称 OCR 工具。这里我们以清华紫光 OCR 文字识别工具

然后，运行 “Microsoft Office Document Imaging”，并利用它来打

　　Sn.agIt 是一款功能强大的图片捕捉工具，但是很多朋友可能不知道，它

　　文字识别工具简称 OCR 工具。这里我们以清华紫光 OCR 文字识别工具为例。打