如何用wget將多個網頁轉換成pdf

想存檔一些網頁以便以後在任何裝置上閱讀嗎?答案是用Wget將這些網站轉換成PDF格式。...

有許多在線工具、瀏覽器擴展和桌面插件可以將網頁轉換為PDF。如果您經常使用這些工具,可能會遇到需要一次性轉換多個鏈接的情況。一個接一個地做是浪費時間和乏味的。

download-page-pdf-wget

您可以通過一個簡單的命令行實用程序Wget來自動化此任務。藉助於一些腳本或應用程序和此工具,我們將向您演示如何將多個網頁保存到PDF文件中。

為什麼是wget?

Wget是一個從web下載文件的免費軟件包。但它也是一個完美的工具,鏡像到您的電腦整個網頁。原因如下:

  • 它是非交互式的,這意味著它可以在後臺工作,讓您傳輸數據而不需要您的存在。
  • Wget瞭解網站的目錄結構。它可以按照HTML頁面中的鏈接,創建一個本地版本的遠程網站。在這個過程中,它也尊重機器人.txt文件。
  • 它甚至可以在緩慢或不穩定的網絡連接中工作。如果服務器支持regetting,它將繼續重試,直到整個文件傳輸到您的計算機。
  • Wget支持代理服務器。它有助於減輕網絡負載,加快檢索過程,並提供防火牆後的訪問。

安裝wget

在macos上

安裝Wget最快的方法是通過自制程序。它是macOS的軟件包管理器,用於安裝有用的Unix實用程序和應用程序。查看這篇關於如何通過自制安裝macOS應用程序的文章。然後,輸入

brew install wget

您將獲得安裝Wget在Mac上運行所需的所有工具(如果有的話)的實時進度。如果您已經安裝了自制軟件,請務必運行brew升級以獲取此實用程序的最新版本。

在windows 10上

有許多版本的Wget可用於windows10。前往永恆板下載最新的64位版本。將可執行文件放在一個文件夾中,並將其複製到C:驅動器。

install location of wget in Windows

現在我們將Wget path添加到系統的環境變量中,以便從任何目錄運行此工具。導航到“控制面板”>“系統”,然後單擊“高級系統設置”。在打開的窗口中,單擊環境變量。

click environment variable in advanced system settings

選擇“系統變量”下的“路徑”,然後單擊“編輯”。然後,單擊位於窗口右上角的“新建”按鈕。鍵入C:\wget並單擊Ok。

add wget to system environment variable

打開命令提示符並鍵入wget-h以測試是否一切正常。在PowerShell類型中wget.exe文件-h加載Wget幫助菜單。

run wget from the command prompt

將鏈接保存在文本文件中

因為我們要處理多個鏈接,所以逐個粘貼鏈接是一項困難的任務。謝天謝地,有一些瀏覽器擴展可以幫助您完成這項任務。

Link Klipper:它將網頁上的所有鏈接提取為CSV或TXT文件。你甚至可以在網頁上拖動一個矩形區域來選擇性地複製鏈接。文件將保存到下載文件夾。

link klipper chrome extension

Snap Links Plus:這可以讓你套住頁面上的元素並用它們做事情。按住鼠標右鍵並圍繞鏈接拖動一個選擇矩形。按控制鍵並將鏈接複製到剪貼板。

設置目錄

Wget的工作原理類似於一個web爬蟲,它從HTML文件中提取web頁面資產,包括logo、字體、圖像縮略圖、CSS和JavaScript文件。它還嘗試創建一個類似於遠程服務器的目錄結構。為Wget下載創建一個單獨的目錄,以保存網頁並防止混亂。

在Mac終端或Windows上的命令提示符中,輸入

mkdir Wgetdown

這將在主目錄中創建一個新文件夾。你可以給它取任何你喜歡的名字。下一步,輸入

cd Wgetdown

更改目錄。這將當前工作目錄更改為wget down。

wget命令的詳細信息

創建目錄後,我們將使用實際的Wget命令

wget -E -H -k -K -p -i [Path to Your Text File]

Wget使用gnugetopt處理命令行參數。每一種選擇都有一個長的形式和短的。長選項便於記憶,但需要時間鍵入。您也可以混合不同的選項樣式。讓我們來詳細介紹以下選項:

  • -E(--adjust extension):如果下載了類型為“app/xhtml+xml”或“text/html”的文件,並且URL不以html結尾,則此選項會將html附加到文件名。
  • -H(-span hosts):當您嘗試遞歸地檢索鏈接時,不希望檢索不必要的數據負載。您希望Wget只關注特定的鏈接。此選項啟用主機擴展,允許Wget recursive run訪問鏈接引用的任何主機。例如,來自不同主機的圖像。
  • -p(--page requisites):此選項下載顯示HTML頁面所需的所有文件。它包括內聯圖像、音頻和引用的樣式表。
  • -k(--convert links):它轉換文檔中的鏈接,使其適合脫機查看。它包括嵌入的圖像、到樣式表的鏈接、到非HTML內容的超鏈接等等。
  • -K(-backup converted):轉換文件時,此選項使用.orig後綴備份原始版本。
  • -i(--input file):從本地或外部文件的路徑讀取URL。

使用命令

要在實踐中演示這些命令,請考慮一個名為“編寫工作流”的網站手冊。本手冊由一個目錄組成,目錄中有各個章節的鏈接。最終的目標是要為這些部分創建一個單獨的PDF文件。

步驟1:打開終端並創建一個新文件夾,如上所述。

create folder through Terminal

步驟2:使用Link Klipper擴展名將鏈接保存為文本文件。將文件保存到下載文件夾。

add links through link klipper extension

第3步:在Wgetdown文件夾中,輸入

wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt

putting wget commands in use

第四步:按回車鍵。等待進程完成。

wget command in process

步驟5:導航到Wgetdown文件夾。您將看到主域processedword.net包含所有網頁資源和chapter1.html的文件夾。

downloaded files with all the assets

將html轉換為pdf

將網頁轉換為PDF看起來很簡單。但是讓他們看起來像原始網頁是一個困難的任務。產生理想結果取決於:

  • 系統字體可用。
  • HTML標記的完整性。
  • 支持表格或浮動圖像所需的功能。
  • (可選)目錄。

視窗10

PrinceXML是一個將HTML文件快速轉換為PDF的應用程序。它使您能夠通過可配置的佈局和web標準支持來排版、格式化和打印HTML內容。它提供了許多有用的字體,還允許您自定義PDF輸出。該應用程序是免費的非商業用途。

princexml app for converting html to pdf

馬科斯

在你的Mac上,你可以創建一個自動機服務來將一批HTML文件轉換成PDF。打開Automator並創建快速操作文檔。將服務選項設置為從Finder接收文件或文件夾。下一步拖動runshell腳本並將Pass input選項設置為as arguments。然後,將此腳本粘貼到正文中

for theFileToProcess in "$@"docupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf"done

將文件另存為HTML2PDF。

shell script to convert files in Mac

現在選擇Finder中的所有HTML文件。右鍵單擊並選擇“服務”>“HTML2PDF”。請稍等片刻以轉換所有文件。

convert bunch of html files with this script

將單個網頁轉換為pdf的方法

乍一看,將多個網頁轉換為PDF的步驟看起來很複雜。但一旦你瞭解了這些步驟和過程,從長遠來看會節省時間。你不必花錢購買任何網絡訂閱或昂貴的PDF轉換器。

如果你正在尋找將一個網頁轉換成PDF的方法,請閱讀這篇關於如何將網頁轉換成PDF的文章。

  • 發表於 2021-03-19 11:02
  • 閱讀 ( 51 )
  • 分類:科技

你可能感興趣的文章

如何儲存網頁以便在android上離線檢視

... 要在您的計算機上將多個網頁轉換為PDF,請檢視如何使用Wget。 ...

  • 發佈於 2021-03-14 07:51
  • 閲讀 ( 51 )

如何使網頁在任何瀏覽器中列印都更環保

有很多工具可以幫助您使網頁對墨水友好(因此對環境友好),但它們通常要求您使用特定的瀏覽器。但是有一些工具不管你的瀏覽器或你要列印的頁面如何都能工作,而且它們不容易使用。 ...

  • 發佈於 2021-03-14 17:48
  • 閲讀 ( 30 )

5個免費工具來編輯pdf檔案

... 主要特點:將多個影象合併成一個PDF檔案。 ...

  • 發佈於 2021-03-15 23:22
  • 閲讀 ( 54 )

如何下載完整的網頁進行離線閱讀

... 選擇“網頁”,當您要儲存整個網頁以及圖片時,請選擇“完成”。這在大多數情況下保持了完整的視覺外觀,但可能不會保持原始頁面或任何伺服器端元素的HTML連結結構。Firefox建立了一個新的目錄...

  • 發佈於 2021-03-18 01:12
  • 閲讀 ( 55 )

如何建立自己的私有自託管ReadItLater應用程式

... 它還提供了一個簡單的命令列介面來處理多個連結、提要和書籤。你必須設定它一次,並執行它的時間表存檔較新的連結。 ...

  • 發佈於 2021-03-19 09:29
  • 閲讀 ( 53 )

10個提示,可以在google drive上使用pdf檔案

...googledrive配備了一些處理PDF管理的奇妙功能。在您尋找任何用於googledrive PDF編輯的外掛之前,請仔細檢查它是否還不是一個功能。 ...

  • 發佈於 2021-03-19 15:14
  • 閲讀 ( 53 )

如何下載整個網站進行離線閱讀

... WebCopy的有趣之處在於,您可以設定多個“專案”,每個專案都有自己的設定和配置。這使得您可以隨時輕鬆地重新下載許多不同的站點,每次都以相同的方式進行。 ...

  • 發佈於 2021-03-22 21:53
  • 閲讀 ( 50 )

每種格式5個高質量線上電子書轉換器

...次轉換最多可以處理20個檔案,因此在不同格式之間轉換多個電子書要容易得多。 ...

  • 發佈於 2021-03-24 04:13
  • 閲讀 ( 68 )

如何在chrome中單擊下載pdf檔案(而不是開啟它們)

...器。它們為超級使用者提供了很多優秀的特性。如果你對將多個網頁轉換成PDF感興趣,可以看看Wget。 ...

  • 發佈於 2021-03-24 09:30
  • 閲讀 ( 35 )

3種將網頁轉換為PDF的簡單方法

... 下載應用程式後,您可以使用多個選項將網頁轉換為PDF。首先,您可以將任何網頁以PDF格式儲存到裝置中。如果空間不足是一個問題,使用應用程式的功能,傳送PDF到您的收件箱。 ...

  • 發佈於 2021-03-25 08:08
  • 閲讀 ( 46 )
nnxxwdoui
nnxxwdoui

0 篇文章

作家榜

  1. admin 0 文章
  2. 孫小欽 0 文章
  3. JVhby0 0 文章
  4. fvpvzrr 0 文章
  5. 0sus8kksc 0 文章
  6. zsfn1903 0 文章
  7. w91395898 0 文章
  8. SuperQueen123 0 文章

相關推薦