如何用wget将多个网页转换成pdf

想存档一些网页以便以后在任何设备上阅读吗?答案是用Wget将这些网站转换成PDF格式。...

有许多在线工具、浏览器扩展和桌面插件可以将网页转换为PDF。如果您经常使用这些工具,可能会遇到需要一次性转换多个链接的情况。一个接一个地做是浪费时间和乏味的。

download-page-pdf-wget

您可以通过一个简单的命令行实用程序Wget来自动化此任务。借助于一些脚本或应用程序和此工具,我们将向您演示如何将多个网页保存到PDF文件中。

为什么是wget?

Wget是一个从web下载文件的免费软件包。但它也是一个完美的工具,镜像到您的电脑整个网页。原因如下:

  • 它是非交互式的,这意味着它可以在后台工作,让您传输数据而不需要您的存在。
  • Wget了解网站的目录结构。它可以按照HTML页面中的链接,创建一个本地版本的远程网站。在这个过程中,它也尊重机器人.txt文件。
  • 它甚至可以在缓慢或不稳定的网络连接中工作。如果服务器支持regetting,它将继续重试,直到整个文件传输到您的计算机。
  • Wget支持代理服务器。它有助于减轻网络负载,加快检索过程,并提供防火墙后的访问。

安装wget

在macos上

安装Wget最快的方法是通过自制程序。它是macOS的软件包管理器,用于安装有用的Unix实用程序和应用程序。查看这篇关于如何通过自制安装macOS应用程序的文章。然后,输入

brew install wget

您将获得安装Wget在Mac上运行所需的所有工具(如果有的话)的实时进度。如果您已经安装了自制软件,请务必运行brew升级以获取此实用程序的最新版本。

在windows 10上

有许多版本的Wget可用于windows10。前往永恒板下载最新的64位版本。将可执行文件放在一个文件夹中,并将其复制到C:驱动器。

install location of wget in Windows

现在我们将Wget path添加到系统的环境变量中,以便从任何目录运行此工具。导航到“控制面板”>“系统”,然后单击“高级系统设置”。在打开的窗口中,单击环境变量。

click environment variable in advanced system settings

选择“系统变量”下的“路径”,然后单击“编辑”。然后,单击位于窗口右上角的“新建”按钮。键入C:\wget并单击Ok。

add wget to system environment variable

打开命令提示符并键入wget-h以测试是否一切正常。在PowerShell类型中wget.exe文件-h加载Wget帮助菜单。

将链接保存在文本文件中

因为我们要处理多个链接,所以逐个粘贴链接是一项困难的任务。谢天谢地,有一些浏览器扩展可以帮助您完成这项任务。

Link Klipper:它将网页上的所有链接提取为CSV或TXT文件。你甚至可以在网页上拖动一个矩形区域来选择性地复制链接。文件将保存到下载文件夹。

link klipper chrome extension

Snap Links Plus:这可以让你套住页面上的元素并用它们做事情。按住鼠标右键并围绕链接拖动一个选择矩形。按控制键并将链接复制到剪贴板。

设置目录

Wget的工作原理类似于一个web爬虫,它从HTML文件中提取web页面资产,包括logo、字体、图像缩略图、CSS和JavaScript文件。它还尝试创建一个类似于远程服务器的目录结构。为Wget下载创建一个单独的目录,以保存网页并防止混乱。

在Mac终端或Windows上的命令提示符中,输入

mkdir Wgetdown

这将在主目录中创建一个新文件夹。你可以给它取任何你喜欢的名字。下一步,输入

cd Wgetdown

更改目录。这将当前工作目录更改为wget down。

wget命令的详细信息

创建目录后,我们将使用实际的Wget命令

wget -E -H -k -K -p -i [Path to Your Text File]

Wget使用gnugetopt处理命令行参数。每一种选择都有一个长的形式和短的。长选项便于记忆,但需要时间键入。您也可以混合不同的选项样式。让我们来详细介绍以下选项:

  • -E(--adjust extension):如果下载了类型为“app/xhtml+xml”或“text/html”的文件,并且URL不以html结尾,则此选项会将html附加到文件名。
  • -H(-span hosts):当您尝试递归地检索链接时,不希望检索不必要的数据负载。您希望Wget只关注特定的链接。此选项启用主机扩展,允许Wget recursive run访问链接引用的任何主机。例如,来自不同主机的图像。
  • -p(--page requisites):此选项下载显示HTML页面所需的所有文件。它包括内联图像、音频和引用的样式表。
  • -k(--convert links):它转换文档中的链接,使其适合脱机查看。它包括嵌入的图像、到样式表的链接、到非HTML内容的超链接等等。
  • -K(-backup converted):转换文件时,此选项使用.orig后缀备份原始版本。
  • -i(--input file):从本地或外部文件的路径读取URL。

使用命令

要在实践中演示这些命令,请考虑一个名为“编写工作流”的网站手册。本手册由一个目录组成,目录中有各个章节的链接。最终的目标是要为这些部分创建一个单独的PDF文件。

步骤1:打开终端并创建一个新文件夹,如上所述。

create folder through Terminal

步骤2:使用Link Klipper扩展名将链接保存为文本文件。将文件保存到下载文件夹。

add links through link klipper extension

第3步:在Wgetdown文件夹中,输入

wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt

putting wget commands in use

第四步:按回车键。等待进程完成。

wget command in process

步骤5:导航到Wgetdown文件夹。您将看到主域processedword.net包含所有网页资源和chapter1.html的文件夹。

downloaded files with all the assets

将html转换为pdf

将网页转换为PDF看起来很简单。但是让他们看起来像原始网页是一个困难的任务。产生理想结果取决于:

  • 系统字体可用。
  • HTML标记的完整性。
  • 支持表格或浮动图像所需的功能。
  • (可选)目录。

视窗10

PrinceXML是一个将HTML文件快速转换为PDF的应用程序。它使您能够通过可配置的布局和web标准支持来排版、格式化和打印HTML内容。它提供了许多有用的字体,还允许您自定义PDF输出。该应用程序是免费的非商业用途。

princexml app for converting html to pdf

马科斯

在你的Mac上,你可以创建一个自动机服务来将一批HTML文件转换成PDF。打开Automator并创建快速操作文档。将服务选项设置为从Finder接收文件或文件夹。下一步拖动runshell脚本并将Pass input选项设置为as arguments。然后,将此脚本粘贴到正文中

for theFileToProcess in "$@"docupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf"done

将文件另存为HTML2PDF。

shell script to convert files in Mac

现在选择Finder中的所有HTML文件。右键单击并选择“服务”>“HTML2PDF”。请稍等片刻以转换所有文件。

convert bunch of html files with this script

将单个网页转换为pdf的方法

乍一看,将多个网页转换为PDF的步骤看起来很复杂。但一旦你了解了这些步骤和过程,从长远来看会节省时间。你不必花钱购买任何网络订阅或昂贵的PDF转换器。

如果你正在寻找将一个网页转换成PDF的方法,请阅读这篇关于如何将网页转换成PDF的文章。

  • 发表于 2021-03-19 11:02
  • 阅读 ( 523 )
  • 分类:IT

你可能感兴趣的文章

如何保存网页以便在android上离线查看

... 要在您的计算机上将多个网页转换为PDF,请查看如何使用Wget。 ...

  • 发布于 2021-03-14 07:51
  • 阅读 ( 584 )

如何创建自己的私有自托管ReadItLater应用程序

... 它还提供了一个简单的命令行界面来处理多个链接、提要和书签。你必须设置它一次,并运行它的时间表存档较新的链接。 ...

  • 发布于 2021-03-19 09:29
  • 阅读 ( 285 )

如何下载整个网站进行离线阅读

... WebCopy的有趣之处在于,您可以设置多个“项目”,每个项目都有自己的设置和配置。这使得您可以随时轻松地重新下载许多不同的站点,每次都以相同的方式进行。 ...

  • 发布于 2021-03-22 21:53
  • 阅读 ( 874 )

每种格式5个高质量在线电子书转换器

...次转换最多可以处理20个文件,因此在不同格式之间转换多个电子书要容易得多。 ...

  • 发布于 2021-03-24 04:13
  • 阅读 ( 303 )

如何在chrome中单击下载pdf文件(而不是打开它们)

...器。它们为超级用户提供了很多优秀的特性。如果你对将多个网页转换成PDF感兴趣,可以看看Wget。 ...

  • 发布于 2021-03-24 09:30
  • 阅读 ( 285 )

3种将网页转换为PDF的简单方法

... 下载应用程序后,您可以使用多个选项将网页转换为PDF。首先,您可以将任何网页以PDF格式保存到设备中。如果空间不足是一个问题,使用应用程序的功能,发送PDF到您的收件箱。 ...

  • 发布于 2021-03-25 08:08
  • 阅读 ( 533 )

如何轻松地将完整的网站转换为pdf格式

...完整的网站,你真的要分享或保存,但你不想通过每一个网页保存为PDF格式? ...

  • 发布于 2021-03-29 07:32
  • 阅读 ( 187 )

如何使用pdfbear简化pdf工作流和转换

...XLS、XLSX、PPT和PPTX。 JPG到PDF:您可以上传多个JPEG并将它们合并到一个PDF中。也可以调整方向和边距。 HTML到PDF:复制并粘贴您想要的页面的URL,然后单击将其转换为PDF。转换时质量保持不变。 ...

  • 发布于 2021-03-30 01:45
  • 阅读 ( 194 )

如何在windows中创建pdf文件

...点击“保存”按钮。 你现在有一个惊人的PDF分享。 将多个图像合并为一个pdf 这是给你的另一个小提示。如果您有一堆图像(或其他文档)想要合并成一个PDF文档,您可以直接从文件资源管理器中完成。 选择要合并的所有文件...

  • 发布于 2021-04-05 02:24
  • 阅读 ( 276 )

如何将microsoft word文档转换为pdf

...阅为您提供了一些附加功能,如无限制的转换(一次转换多个文档),以及转换更多类型文件的能力。 LibreOffice:LibreOffice是一个免费的、开源的office应用程序,它提供了很多与微软office相同的功能。您甚至可以打开Microsoft Word文...

  • 发布于 2021-04-06 08:12
  • 阅读 ( 163 )
nnxxwdoui
nnxxwdoui

0 篇文章

相关推荐