什么是网络爬虫,它是如何工作的?

你有没有在Google上搜索过什么东西,然后想知道,“它怎么知道去哪里找?”答案是“网络爬虫”,它搜索网络并索引,这样你就可以在网上很容易地找到东西。我们会解释的。...

你有没有在Google上搜索过什么东西,然后想知道,“它怎么知道去哪里找?”答案是“网络爬虫”,它搜索网络并索引,这样你就可以在网上很容易地找到东西。我们会解释的。

搜索引擎和爬虫

当你在谷歌(Google)或必应(Bing)这样的搜索引擎上使用关键词进行搜索时,网站会在数以万亿计的页面中进行筛选,生成一个与该关键词相关的结果列表。这些搜索引擎究竟是如何将所有这些页面归档的,知道如何查找它们,并在几秒钟内生成这些结果的?

答案是网络爬虫,也称为蜘蛛。这些是自动程序(通常称为“机器人”或“机器人”),它们可以在网络上“爬行”或浏览,以便添加到搜索引擎中。这些机器人为网站编制索引,创建最终出现在搜索结果中的页面列表。

爬虫还可以在引擎的数据库中创建和存储这些页面的副本,这样您就可以几乎立即进行搜索。这也是为什么搜索引擎经常在数据库中包含网站的缓存版本。

相关:如何在网页关闭时访问它

站点地图和选择

那么,爬虫如何选择要爬网的网站呢?嗯,最常见的情况是网站所有者希望搜索引擎对他们的网站进行爬网。他们可以通过请求Google、Bing、Yahoo或其他搜索引擎为他们的页面建立索引来实现这一点。这一过程因发动机而异。此外,搜索引擎经常通过跟踪URL链接到其他公共网站的次数来选择流行的、链接良好的网站进行爬网。

网站所有者可以使用某些过程来帮助搜索引擎索引他们的网站,比如发布网站地图。这是一个包含所有链接和网页,是你的网站的一部分的文件。它通常用于指示您希望索引哪些页面。

Advertisement

一旦搜索引擎已经爬过一个网站一次,他们会自动爬网该网站再次。频率根据网站的流行程度以及其他指标而变化。因此,网站所有者经常保持更新的网站地图,让引擎知道哪些新网站的索引。

机器人与礼貌因素

如果一个网站不希望它的部分或全部页面出现在搜索引擎上怎么办?例如,您可能不希望人们搜索仅限成员的页面或查看404错误页面。这就是爬行排除列表(也称为robots.txt)发挥作用的地方。这是一个简单的文本文件,指示爬虫从索引中排除哪些网页。

robots.txt之所以重要的另一个原因是,网络爬虫可以对网站性能产生重大影响。因为爬虫程序实质上是下载你网站上的所有页面,它们消耗资源并可能导致速度减慢。他们到达的时间难以预料,而且没有得到批准。如果您不需要重复索引页面,那么停止爬虫程序可能有助于减少一些网站负载。幸运的是,大多数爬虫程序根据网站所有者的规则停止对某些页面进行爬网。

元数据魔力

什么是网络爬虫,它是如何工作的?

在Google的每个搜索结果的URL和标题下,你会发现一个简短的页面描述。这些描述称为片段。您可能会注意到,Google中的页面片段并不总是与网站的实际内容一致。这是因为许多网站都有一种叫做“meta标签”的东西,这是网站所有者添加到页面中的自定义描述。

网站所有者经常会提出一些诱人的元数据描述,让你想点击一个网站。谷歌还列出了其他元信息,如价格和股票可用性。这对于那些运行电子商务网站的人尤其有用。

你的搜索

网络搜索是使用互联网的重要组成部分。搜索网络是发现新网站、商店、社区和兴趣的好方法。每天,网络爬虫访问数以百万计的网页,并将它们添加到搜索引擎中。虽然爬虫有一些缺点,比如占用网站资源,但它们对网站所有者和访问者来说都是无价的。

相关:如何删除谷歌搜索历史的最后15分钟

  • 发表于 2021-07-14 07:45
  • 阅读 ( 111 )
  • 分类:互联网

你可能感兴趣的文章

如何用selenium制作网络爬虫

... 您是否有任何项目受益于使用硒?你面临什么问题?请在下面的评论中描述。 ...

  • 发布于 2021-03-11 23:41
  • 阅读 ( 360 )

搜索引擎是如何工作的?

...托管在tornetwork上的网站,不能被搜索引擎编入索引。(什么是TOR和洋葱路由?) ...

  • 发布于 2021-03-12 13:31
  • 阅读 ( 167 )

如何正确设置机器人.txt为您的网站

... 我们来看看机器人.txt文件是什么,它做什么,以及如何正确设置它为您的网站。 ...

  • 发布于 2021-03-13 06:21
  • 阅读 ( 231 )

如何使用chrome上的wayback机器查看死url链接

...浏览。如果你认为这是一个有用的工作位,那么你会喜欢什么回程机铬扩展可以做。 ...

  • 发布于 2021-03-16 05:21
  • 阅读 ( 147 )

如何找到活跃的。洋葱黑暗的网站(以及为什么你可能想要)

...置好连接到网络的,开发者强烈建议除非你知道自己在做什么,否则不要乱动浏览器的设置。 ...

  • 发布于 2021-03-22 21:08
  • 阅读 ( 723 )

模块化恶意软件:新的窃取数据的秘密攻击

...以使用不同的模块来改变它们对目标系统的影响。那么,什么是模块化恶意软件,它是如何工作的? ...

  • 发布于 2021-03-22 23:32
  • 阅读 ( 241 )

最好的网上刮网工具

... 相关:什么是网页抓取?如何从网站收集数据 ...

  • 发布于 2021-03-28 12:12
  • 阅读 ( 230 )

侵犯某人隐私的最好方法

...cebook帐户是一个很好的开始。你应该在你的假档案里放些什么?包括让你看起来像你的目标认识的人的信息。如果你的目标是一名大学生,那么你可以申请就读同一所大学。也许他们会认为他们见过你,只是不记得你是谁。你的...

  • 发布于 2021-05-25 14:56
  • 阅读 ( 165 )

元标签(meta tags)和关键词(keywords)的区别

...际上,这是搜索引擎爬虫唯一能看到的东西。这些标签向网络爬虫提供关于网页的各种信息;当一个人在搜索引擎(如Google)中搜索查询时,诸如网页名称、网页内容、网页创建者、网页更新频率等信息。网络爬虫将搜索页面的...

  • 发布于 2021-07-12 05:49
  • 阅读 ( 272 )

如何在不安装任何扩展的情况下更改浏览器的用户代理

...可以在不安装任何扩展的情况下更改用户代理。 相关:什么是浏览器的用户代理? 网站通过“用户代理”识别浏览器。更改浏览器的用户代理,它将向网站报告它是不同的浏览器。这允许您请求针对不同浏览器的网页,甚至是...

  • 发布于 2021-07-15 03:21
  • 阅读 ( 109 )
liberoutcome
liberoutcome

0 篇文章

相关推荐