什么是网络爬虫，它是如何工作的？

你有没有在Google上搜索过什么东西，然后想知道，“它怎么知道去哪里找？”答案是“网络爬虫”，它搜索网络并索引，这样你就可以在网上很容易地找到东西。我们会解释的。...

你有没有在Google上搜索过什么东西，然后想知道，“它怎么知道去哪里找？”答案是“网络爬虫”，它搜索网络并索引，这样你就可以在网上很容易地找到东西。我们会解释的。

搜索引擎和爬虫

当你在谷歌（Google）或必应（Bing）这样的搜索引擎上使用关键词进行搜索时，网站会在数以万亿计的页面中进行筛选，生成一个与该关键词相关的结果列表。这些搜索引擎究竟是如何将所有这些页面归档的，知道如何查找它们，并在几秒钟内生成这些结果的？

答案是网络爬虫，也称为蜘蛛。这些是自动程序（通常称为“机器人”或“机器人”），它们可以在网络上“爬行”或浏览，以便添加到搜索引擎中。这些机器人为网站编制索引，创建最终出现在搜索结果中的页面列表。

爬虫还可以在引擎的数据库中创建和存储这些页面的副本，这样您就可以几乎立即进行搜索。这也是为什么搜索引擎经常在数据库中包含网站的缓存版本。

相关：如何在网页关闭时访问它

站点地图和选择

那么，爬虫如何选择要爬网的网站呢？嗯，最常见的情况是网站所有者希望搜索引擎对他们的网站进行爬网。他们可以通过请求Google、Bing、Yahoo或其他搜索引擎为他们的页面建立索引来实现这一点。这一过程因发动机而异。此外，搜索引擎经常通过跟踪URL链接到其他公共网站的次数来选择流行的、链接良好的网站进行爬网。

网站所有者可以使用某些过程来帮助搜索引擎索引他们的网站，比如发布网站地图。这是一个包含所有链接和网页，是你的网站的一部分的文件。它通常用于指示您希望索引哪些页面。

一旦搜索引擎已经爬过一个网站一次，他们会自动爬网该网站再次。频率根据网站的流行程度以及其他指标而变化。因此，网站所有者经常保持更新的网站地图，让引擎知道哪些新网站的索引。

机器人与礼貌因素

如果一个网站不希望它的部分或全部页面出现在搜索引擎上怎么办？例如，您可能不希望人们搜索仅限成员的页面或查看404错误页面。这就是爬行排除列表（也称为robots.txt）发挥作用的地方。这是一个简单的文本文件，指示爬虫从索引中排除哪些网页。

robots.txt之所以重要的另一个原因是，网络爬虫可以对网站性能产生重大影响。因为爬虫程序实质上是下载你网站上的所有页面，它们消耗资源并可能导致速度减慢。他们到达的时间难以预料，而且没有得到批准。如果您不需要重复索引页面，那么停止爬虫程序可能有助于减少一些网站负载。幸运的是，大多数爬虫程序根据网站所有者的规则停止对某些页面进行爬网。