如何在linux中使用命令行将pdf文件转换为可编辑文本

您可能希望将PDF文件转换为可编辑文本的原因有很多。也许你需要修改一个旧文档,而你所拥有的只是它的PDF版本。在Windows中转换PDF文件很容易,但是如果使用Linux呢?...

如何在linux中使用命令行将pdf文件转换为可编辑文本

您可能希望将PDF文件转换为可编辑文本的原因有很多。也许你需要修改一个旧文档,而你所拥有的只是它的PDF版本。在Windows中转换PDF文件很容易,但是如果使用Linux呢?

别担心。我们将向您展示如何使用名为pdftotext的命令行工具轻松地将PDF文件转换为可编辑文本,这是“poppler utils”包的一部分。此工具可能已安装。要检查系统上是否安装了pdftotext,请按“Ctrl+Alt+T”打开一个终端窗口。在提示符处键入以下命令并按“回车”。

dpkg –s poppler-utils

注意:当我们说要在本文中键入一些内容,并且文本周围有引号时,不要键入引号,除非我们另有规定。

如何在linux中使用命令行将pdf文件转换为可编辑文本

如果未安装pdftotext,请在提示符处键入以下命令,然后按“Enter”。

sudo apt-get install poppler-utils

在提示时键入密码,然后按“回车”。

如何在linux中使用命令行将pdf文件转换为可编辑文本

poppler utils包中有几种工具可用于将PDF转换为不同的格式、操作PDF文件以及从文件中提取信息。

如何在linux中使用命令行将pdf文件转换为可编辑文本

以下是将PDF文件转换为可编辑文本文件的基本命令。按“Ctrl+Alt+T”打开一个终端窗口,在提示下键入命令,然后按“Enter”。

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

更改每个文件的路径,使其与原始PDF文件的位置和名称以及要保存生成的文本文件的位置相对应。另外,更改文件名以与文件名相对应。

如何在linux中使用命令行将pdf文件转换为可编辑文本

文本文件是创建的,可以像在Linux中打开任何其他文本文件一样打开。

如何在linux中使用命令行将pdf文件转换为可编辑文本

转换后的文本可能在不需要的位置有换行符。换行符**在PDF文件中的每一行文本之后。

如何在linux中使用命令行将pdf文件转换为可编辑文本

您可以使用“-layout”标志从转换文本文件中的原始PDF文件保留文档的布局(页眉、页脚、分页等)。

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

如何在linux中使用命令行将pdf文件转换为可编辑文本

如果只希望转换PDF文件中的一个页面范围,请使用“-f”和“-l”(小写“l”)标志指定要转换的范围中的第一个和最后一个页面。

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

如何在linux中使用命令行将pdf文件转换为可编辑文本

要转换受所有者密码保护和加密的PDF文件,请使用“-opw”标志(标志中的第一个字符是小写字母“O”,而不是零)。

pdftotext -opw ‘password’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

将“密码”更改为用于保护正在转换的原始PDF文件的密码。确保“password”周围有单引号,而不是双引号。

如何在linux中使用命令行将pdf文件转换为可编辑文本

如果PDF文件受保护并使用用户密码加密,请使用“-upw”标志而不是“-opw”标志。命令的其余部分是相同的。

如何在linux中使用命令行将pdf文件转换为可编辑文本

还可以指定应用于转换文本的行尾字符的类型。如果您计划在不同的操作系统(如Windows或Mac)**问文件,这一点尤其有用。为此,请使用“-eol”标志(标志中的中间字符是小写字母“O”,而不是零),后跟空格和要使用的行尾字符类型(“unix”、“dos”或“mac”)。

如何在linux中使用命令行将pdf文件转换为可编辑文本

注意:如果没有为文本文件指定文件名,pdftotext将自动使用PDF文件名的基文件名并添加“.txt”扩展名。例如文件.pdf“将转换为”文件.txt”. 如果文本文件被指定为“-”,则转换后的文本将发送到stdout,这意味着文本将显示在终端窗口中,而不会保存到文件中。

要关闭终端窗口,请单击左上角的“X”按钮。

有关pdftotext命令的详细信息,请在终端窗口的提示符处键入“man page pdftotext”。

  • 发表于 2021-04-10 06:23
  • 阅读 ( 164 )
  • 分类:互联网

你可能感兴趣的文章

如何为kindle优化pdf文件

... 但是,无论您使用adobeacrobat这样的专业工具还是免费工具,并不是所有的PDF文档都是相同的。大多数人不希望他们的PDF文档能在Kindle上阅读。因此,大多数PDF在Kindle设备上阅读时都是难...

  • 发布于 2021-03-13 13:48
  • 阅读 ( 196 )

如何在linux和macos上将手册页缩短为可读的解释

... 使用tldr快速了解如何使用命令 ...

  • 发布于 2021-03-14 01:21
  • 阅读 ( 195 )

在linux中如何方便地在文档格式之间转换

...注意上面的参考文件中配置的字体(标题1为Arial Black等)如何显示在下面的转换文件中。您可以根据需要创建任意数量的这些引用文件(例如,每个客户机一个)。然后在编写时完全忽略格式,并在转换时一步应用样式。 ...

  • 发布于 2021-03-14 18:46
  • 阅读 ( 286 )

如何在mac上创建、合并、拆分和标记pdf文档

对于一些最基本的文档功能,您的Mac不需要像AdobeAcrobatPro这样的高级第三方PDF工具。无论您想将文档转换为PDF文件,合并或拆分现有文档,还是对表单进行批注和签名,macOS都可以做到。 ...

  • 发布于 2021-03-15 14:36
  • 阅读 ( 354 )

什么是人工智能文件?如何打开它没有adobe illustrator

... 如何在没有illustrator的情况下打开ai文件 ...

  • 发布于 2021-03-17 22:39
  • 阅读 ( 365 )

如何使用ocr将手写图像转换为文本

您是否需要将手写笔记数字化以编辑或索引它们?或者你想从手写引文的图片中复制文本?你需要的是一种光学字符识别(OCR)工具。 ...

  • 发布于 2021-03-18 01:59
  • 阅读 ( 226 )

如何使用applescript将bash脚本转换为可单击的应用程序

...为输入运行它。这些特殊的应用程序被称为水滴。下面是如何创建一个: ...

  • 发布于 2021-03-21 09:39
  • 阅读 ( 249 )

如何使用pdfbear简化pdf工作流和转换

当您创建一个包含任何类型数据的PDF文档时,无论您使用哪种设备,它都会以完全相同的方式显示数据。现代浏览器拥有所有基本的PDF技术,可以轻松地显示和浏览PDF。 ...

  • 发布于 2021-03-30 01:45
  • 阅读 ( 198 )

在任何地方编辑pdf文件的7个最佳工具

...然,现在每个浏览器都可以打开一个PDF文件,但是你知道如何编辑PDF文件吗? ...

  • 发布于 2021-03-30 14:07
  • 阅读 ( 302 )

如何使用tesseract从linux命令行执行ocr

...取文本。它快速、准确,可以使用大约100种语言。下面是如何使用它。 光学字符识别 光学字符识别(OCR)是一种在图像中观察和查找单词,然后将其提取为可编辑文本的能力。对于人类来说,这项简单的任务对于计算机来说...

  • 发布于 2021-04-01 21:39
  • 阅读 ( 315 )
o63651724
o63651724

0 篇文章

相关推荐