如何正確設定機器人.txt為您的網站

如果你經營一個網站,你可能聽說過機器人.txt檔案。這個簡單的文字檔案是站點的關鍵部分。你可能會驚訝於它的重要性。...

如果你經營一個網站,你可能聽說過機器人.txt文件(或“機器人排除標準”)。不管你有沒有,現在是時候瞭解它了,因為這個簡單的文本文件是你網站的關鍵部分。它可能看起來微不足道,但你可能會驚訝於它的重要性。

correctly-setup-robotstxt

我們來看看機器人.txt文件是什麼,它做什麼,以及如何正確設置它為您的網站。

什麼是一機器人.txt文件(a robots.txt file)?

瞭解機器人.txt文件工程,你需要知道一點關於搜索引擎。簡短的版本是,他們發出“爬蟲”,這是搜索互聯網上的信息程序。然後,他們存儲一些信息,以便日後指導人們使用。

這些爬蟲,也被稱為“機器人”或“蜘蛛”,從數十億個網站上找到網頁。搜索引擎會告訴他們去哪裡的方向,但是個人網站也可以和機器人進行交流,告訴他們應該看哪些頁面。

大多數時候,他們實際上在做相反的事情,告訴他們哪些頁面不應該看。管理頁面、後臺門戶、分類和標記頁面,以及其他網站所有者不希望在搜索引擎上顯示的內容。這些頁面仍然對用戶可見,並且任何有權限的人(通常是所有人)都可以訪問它們。

但是通過告訴這些蜘蛛不要索引一些頁面機器人.txt文件幫了大家一個忙。如果你在搜索引擎上搜索“MakeUseOf”,你會希望我們的管理頁面在排名中排名靠前嗎?不。那對任何人都沒有好處,所以我們告訴搜索引擎不要顯示它們。它還可以用來阻止搜索引擎簽出可能無法幫助他們在搜索結果中對站點進行分類的頁面。

總之,機器人.txt告訴網絡爬蟲該怎麼做。

爬蟲可以忽略嗎機器人.txt?

爬蟲會忽略嗎機器人.txt文件夾?對。事實上,許多爬蟲確實忽略了它。然而,一般來說,這些爬蟲並不是來自著名的搜索引擎。他們來自垃圾郵件發送者,電子郵件收集者,和其他類型的自動機器人漫遊互聯網。記住這一點很重要——使用機器人排除標準來告訴機器人將其排除在外並不是一種有效的安全措施。事實上,有些機器人可能會從你告訴他們不要去的頁面開始。

然而,搜索引擎會像你的機器人.txt文件說只要格式正確。

如何寫一本書機器人.txt文件

機器人排除標準文件中有幾個不同的部分。我在這裡把它們一一分解。

用戶代理聲明

在告訴機器人不應該查看哪些頁面之前,必須指定要與哪個機器人交談。大多數情況下,您會使用一個簡單的聲明,意思是“所有機器人程序”。如下所示:

User-agent: *

星號代表“所有機器人程序”。但是,您可以為某些機器人程序指定頁面。要做到這一點,你需要知道你正在制定指導方針的機器人的名稱。可能是這樣的:

User-agent: Googlebot[list of pages not to crawl]User-agent: Googlebot-Image/1.0[list of pages not to crawl]User-agent: Bingbot[list of pages not to crawl]

等等。如果你發現一個你根本不想爬網你的站點的機器人,你也可以指定它。

要查找用戶代理的名稱,請檢查useragentstring.com[不再提供]。

不允許頁面

這是robot排除文件的主要部分。通過一個簡單的聲明,您可以告訴一個bot或一組bot不要對某些頁面進行爬網。語法很簡單。以下是您如何禁止訪問站點“admin”目錄中的所有內容:

Disallow: /admin/

那條線可以防止機器人爬行yoursite.com/管理員, yoursite.com/admin/login, yoursite.com/admin/files/secret.html以及屬於admin目錄下的任何其他內容。

要禁止單個頁面,只需在“禁止”行中指定它:

Disallow: /public/exception.html

現在“exception”頁面將不會被繪製,但“public”文件夾中的其他所有內容都將被繪製。

要包含多個目錄或頁面,只需在後續行中列出它們:

Disallow: /private/Disallow: /admin/Disallow: /cgi-bin/Disallow: /temp/

這四行將應用於您在本節頂部指定的任何用戶代理。

如果您不想讓機器人程序查看站點上的任何頁面,請使用以下命令:

Disallow: /

為機器人設定不同的標準

正如我們在上面看到的,您可以為不同的bot指定某些頁面。結合前面的兩個元素,下面是它的樣子:

User-agent: googlebotDisallow: /admin/Disallow: /private/User-agent: bingbotDisallow: /admin/Disallow: /private/Disallow: /secret/

“admin”和“private”部分在Google和Bing上是不可見的,但是Google會看到“secret”目錄,而Bing不會。

您可以使用星號用戶代理為所有bot指定常規規則,然後在後續部分中也為bot提供特定的說明。

把它們放在一起

有了以上知識,你就可以寫一篇完整的文章了機器人.txt文件。只要啟動你最喜歡的文本編輯器(我們是這裡的超級粉絲),開始讓機器人知道他們在你網站的某些地方不受歡迎。

如果你想看一個機器人.txt文件,只需前往任何網站並添加“/機器人.txt“堅持到底。這是巨型自行車的一部分機器人.txt文件:

giant robots.txt file

正如你所看到的,有相當多的頁面,他們不想出現在搜索引擎上。他們還包括一些我們還沒談過的事情。讓我們看看在robot排除文件中還可以執行哪些操作。

定位站點地圖

如果你的機器人.txt文件告訴機器人不要去哪裡,而你的站點地圖則相反,並幫助他們找到他們要找的東西。雖然搜索引擎可能已經知道你的站點地圖在哪裡了,但再次讓他們知道也無妨。

站點地圖位置的聲明很簡單:

Sitemap: [URL of sitemap]

就這樣。

在我們自己的世界裡機器人.txt文件,看起來是這樣的:

Sitemap: https://www.makeuseof.com/sitemap_index.xml

就這些。

設置爬網延遲

crawl delay指令告訴某些搜索引擎,它們可以多久索引一次站點上的頁面。它以秒為單位,儘管有些搜索引擎對它的解釋略有不同。有些人認為5的爬行延遲是告訴他們在每次爬行後等待5秒鐘,以啟動下一次爬行。另一些人則把它理解為每五秒鐘只抓取一頁的指令。

為什麼你要告訴一個爬蟲不要儘可能多地爬行?以保持帶寬。如果您的服務器難以跟上流量,您可能需要設置爬網延遲。一般來說,大多數人不必為此擔心。然而,大型高流量網站可能需要做一些試驗。

下面是如何設置8秒的爬網延遲:

Crawl-delay: 8

就這樣。不是所有的搜索引擎都會遵守你的指令。但問也無妨。與禁止頁面一樣,您可以為特定搜索引擎設置不同的爬網延遲。

上傳你的機器人.txt文件

設置好文件中的所有說明後,可以將其上載到站點。確保它是純文本文件,並且具有機器人.txt. 然後上傳到你的網站上,這樣就可以在yoursite.com/機器人.txt文件。

如果你使用像WordPress這樣的內容管理系統,你可能需要一種特定的方法來實現這一點。由於每個內容管理系統的內容不同,您需要查閱系統的文檔。

一些系統可能也有上傳文件的在線接口。對於這些,只需複製並粘貼在前面步驟中創建的文件。

記住更新你的文件

最後一條建議是偶爾檢查一下你的機器人排除文件。你的網站改變了,你可能需要做一些調整。如果你注意到你的搜索引擎流量有一個奇怪的變化,那麼也可以查看這個文件。標準符號也有可能在未來發生變化。就像你網站上的其他東西一樣,每隔一段時間就可以查看一下。

你在網站上排除哪些頁面的爬蟲程序?你注意到搜索引擎流量有什麼不同嗎?請在下面分享您的建議和意見!

  • 發表於 2021-03-13 06:21
  • 閱讀 ( 53 )
  • 分類:程式設計

你可能感興趣的文章

如何用舊計算機構建linux網路伺服器

... 下面介紹如何設定Linux web伺服器。 ...

  • 發佈於 2021-03-17 19:20
  • 閲讀 ( 54 )

如何建立自己的私有自託管ReadItLater應用程式

... 讓我們看看如何在計算機中建立Instapaper或Pocket的克隆,而不會丟失任何網頁資源。 ...

  • 發佈於 2021-03-19 09:29
  • 閲讀 ( 53 )

26種樹莓皮的妙用

... 然後如何使用樹莓圓周率拍攝時間推移是由你決定的。你可能需要一個行動式電池解決方案,三腳架可能會再次有用。這一次,你可能更喜歡智慧**的三腳架(夾子應該完全適...

  • 發佈於 2021-03-19 18:15
  • 閲讀 ( 71 )

如何設定電子郵件在您的域免費與zoho郵件

...DNS傳播,這可能需要幾個小時。以下是DNS傳播的含義以及如何檢查其狀態。 ...

  • 發佈於 2021-03-20 04:38
  • 閲讀 ( 45 )

最簡單的方式建立自己的網上商店免費

...找一些功能更豐富但技術性更強的東西,那麼你可以學習如何使用Shopify建立一個線上商店。 ...

  • 發佈於 2021-03-20 07:09
  • 閲讀 ( 43 )

10個有效的域名搜尋工具和域名搜尋工具

...推廣的域名。好的域名也具有獨特性和描述性。那麼,你如何為你的網站登陸一個好域名呢? ...

  • 發佈於 2021-03-20 13:03
  • 閲讀 ( 49 )

什麼是雲防火牆?它適合您的網路嗎?

... 防火牆如何設定周界 ...

  • 發佈於 2021-03-20 19:31
  • 閲讀 ( 43 )

如何將raspberry pi設定為windows瘦客戶端

...被稱為瘦客戶機,Raspberry Pi非常適合這項工作。下面介紹如何使用Raspberry Pi瘦客戶端訪問遠端Windows桌面。 ...

  • 發佈於 2021-03-21 09:29
  • 閲讀 ( 52 )

物聯網殭屍網路的興起(以及如何保護您的智慧裝置)

... 在本文中,我們將探討如何利用物聯網和智慧家居裝置,形成一支“數字軍隊”,服從惡意駭客的突發奇想。 ...

  • 發佈於 2021-03-21 23:19
  • 閲讀 ( 53 )

如何使用berryboot雙引導樹莓pi

... 如何獲得berryboot和雙啟動你的覆盆子皮 ...

  • 發佈於 2021-03-25 15:21
  • 閲讀 ( 42 )
jowdev109
jowdev109

0 篇文章

作家榜

  1. admin 0 文章
  2. 孫小欽 0 文章
  3. JVhby0 0 文章
  4. fvpvzrr 0 文章
  5. 0sus8kksc 0 文章
  6. zsfn1903 0 文章
  7. w91395898 0 文章
  8. SuperQueen123 0 文章

相關推薦