在Linux中,您可以使用“pdftotext”命令行工具轻松地将PDF文件转换为可编辑文本。但是,如果原始PDF文件中有任何图像,则不会提取这些图像。要从PDF文件中提取图像,可以使用另一个名为“pdfimages”的命令行工具。
注意:当我们说要在本文中键入一些内容,并且文本周围有引号时,不要键入引号,除非我们另有规定。
“pdfimages”工具是poppler utils包的一部分。您可以检查它是否安装在您的系统上,并在必要时使用本文中描述的步骤进行安装。
要使用pdfimages从PDF文件提取图像,请按“Ctrl+Alt+T”打开终端窗口。在提示符处键入以下命令。
pdfimages /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image
注意:对于本文中显示的所有命令,请将命令中的第一个路径和PDF文件名替换为原始PDF文件的路径和文件名。第二个路径应该是要将提取的图像保存到的根文件夹的路径。第二条路径末尾的单词“image”表示您想在文件名前面加上的任何内容。图像的文件名会自动编号(000、001、002、003等)。如果要在每个图像的开头添加文本,请在第二个路径的末尾输入该文本。在我们的示例中,每个图像文件名都将以“image”开头,例如image-001.ppm、image-002.ppm等。在指定的文本和数字之间添加了一个破折号。
对于非单色图像,默认图像格式为PPM(便携式pixmap),对于单色图像,默认图像格式为PBM(便携式位图)。这些格式被设计成可以在平台之间轻松地交换。
注意:PDF文件中的每个图像可能有两个图像文件。每个图像的第二个图像都是空白的,因此,您可以通过文件管理器中文件的缩略图来判断哪些图像包含文件中的图像。
要创建.jpg图像文件,请将“-j”选项添加到命令中,如下所示。
pdfimages -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image
注意:您还可以使用“-PNG”选项将默认输出更改为PNG,或使用“-TIFF”选项将TIFF更改为PNG。
每个图像的主图像文件保存为.jpg文件。第二个空白图像仍然是.ppm或.pbm文件。
如果只想在某个页面上和之后转换图像,请使用“-f”选项和数字来指示要转换的第一个页面,如下面的命令示例所示。
pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image
注意:我们将“-j”选项和“-f”选项组合在一起,这样就可以得到.jpg图像,下面提到的“-l”选项也是这样做的。
要转换某一页之前和上的所有图像,请使用“-l”(小写字母“l”,而不是数字“1”)选项和数字来指示要转换的最后一页,如下所示。
pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image
注意:您可以同时使用“-f”和“-l”选项来转换文档中间特定页面范围中的图像。
如果PDF文件上有所有者密码,请使用“-opw”选项并将密码用单引号括起来,如下所示。如果PDF文件上的密码是用户密码,请使用“-upw”选项代替密码。
注意:确保命令中的密码周围有单引号。
pdfimages -opw ‘password’ -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image
有关使用pdfimages命令的详细信息,请在终端窗口的提示下键入“pdfimages”,然后按“Enter”。将显示命令用法,其中包含可在命令中使用的选项列表。
...多股票应用程序一样,当你第一次使用它来查看图片或PDF文件时,它似乎没有什么特别之处。 ...
... 有许多工具可以修补PDF文档。今天,我们就来看看如何像锁匠一样挑它,“偷”一个形象,出来不留痕迹。让我们看看从PDF中提取图像的一些方法。 ...
... 如何在没有illustrator的情况下打开ai文件 ...
... 如果你想学习如何在谷歌驱动器中合并PDF文件,PDF Mergy将得到所有的答案。它易于使用,并提供了优异的结果。 ...
... 但如果你的家人和朋友中有人精通技术,他们就会知道如何查看你隐藏的文件和文件夹。因此,您需要一种不太明显的方式来隐藏文件和文件夹。您可以使用一种称为隐写术的数据加密形式,它将信息隐藏在普通图像文件中。...
...取文本。它快速、准确,可以使用大约100种语言。下面是如何使用它。 光学字符识别 光学字符识别(OCR)是一种在图像中观察和查找单词,然后将其提取为可编辑文本的能力。对于人类来说,这项简单的任务对于计算机来说...
...下一节中介绍更多的例子。 相关报道:什么是降价?你如何使用它? 转换文件 文件转换非常简单。pandoc通常可以从文件名中找出您正在使用的文件格式。在这里,我们将从一个降价文件生成一个HTML文件。-o(output)选项告诉pan...
...拉菜单中选择“PDF”,然后点击“保存”按钮。 相关:如何将Microsoft Word文档转换为PDF 特写照片:欧空局里乌塔/皮克斯湾