你有没有在Google上搜索过什么东西,然后想知道,“它怎么知道去哪里找?”答案是“网络爬虫”,它搜索网络并索引,这样你就可以在网上很容易地找到东西。我们会解释的。
当你在谷歌(Google)或必应(Bing)这样的搜索引擎上使用关键词进行搜索时,网站会在数以万亿计的页面中进行筛选,生成一个与该关键词相关的结果列表。这些搜索引擎究竟是如何将所有这些页面归档的,知道如何查找它们,并在几秒钟内生成这些结果的?
答案是网络爬虫,也称为蜘蛛。这些是自动程序(通常称为“机器人”或“机器人”),它们可以在网络上“爬行”或浏览,以便添加到搜索引擎中。这些机器人为网站编制索引,创建最终出现在搜索结果中的页面列表。
爬虫还可以在引擎的数据库中创建和存储这些页面的副本,这样您就可以几乎立即进行搜索。这也是为什么搜索引擎经常在数据库中包含网站的缓存版本。
相关:如何在网页关闭时访问它
那么,爬虫如何选择要爬网的网站呢?嗯,最常见的情况是网站所有者希望搜索引擎对他们的网站进行爬网。他们可以通过请求Google、Bing、Yahoo或其他搜索引擎为他们的页面建立索引来实现这一点。这一过程因发动机而异。此外,搜索引擎经常通过跟踪URL链接到其他公共网站的次数来选择流行的、链接良好的网站进行爬网。
网站所有者可以使用某些过程来帮助搜索引擎索引他们的网站,比如发布网站地图。这是一个包含所有链接和网页,是你的网站的一部分的文件。它通常用于指示您希望索引哪些页面。
Advertisement
一旦搜索引擎已经爬过一个网站一次,他们会自动爬网该网站再次。频率根据网站的流行程度以及其他指标而变化。因此,网站所有者经常保持更新的网站地图,让引擎知道哪些新网站的索引。
如果一个网站不希望它的部分或全部页面出现在搜索引擎上怎么办?例如,您可能不希望人们搜索仅限成员的页面或查看404错误页面。这就是爬行排除列表(也称为robots.txt)发挥作用的地方。这是一个简单的文本文件,指示爬虫从索引中排除哪些网页。
robots.txt之所以重要的另一个原因是,网络爬虫可以对网站性能产生重大影响。因为爬虫程序实质上是下载你网站上的所有页面,它们消耗资源并可能导致速度减慢。他们到达的时间难以预料,而且没有得到批准。如果您不需要重复索引页面,那么停止爬虫程序可能有助于减少一些网站负载。幸运的是,大多数爬虫程序根据网站所有者的规则停止对某些页面进行爬网。
在Google的每个搜索结果的URL和标题下,你会发现一个简短的页面描述。这些描述称为片段。您可能会注意到,Google中的页面片段并不总是与网站的实际内容一致。这是因为许多网站都有一种叫做“meta标签”的东西,这是网站所有者添加到页面中的自定义描述。
网站所有者经常会提出一些诱人的元数据描述,让你想点击一个网站。谷歌还列出了其他元信息,如价格和股票可用性。这对于那些运行电子商务网站的人尤其有用。
网络搜索是使用互联网的重要组成部分。搜索网络是发现新网站、商店、社区和兴趣的好方法。每天,网络爬虫访问数以百万计的网页,并将它们添加到搜索引擎中。虽然爬虫有一些缺点,比如占用网站资源,但它们对网站所有者和访问者来说都是无价的。
相关:如何删除谷歌搜索历史的最后15分钟
...浏览。如果你认为这是一个有用的工作位,那么你会喜欢什么回程机铬扩展可以做。 ...
...置好连接到网络的,开发者强烈建议除非你知道自己在做什么,否则不要乱动浏览器的设置。 ...
...以使用不同的模块来改变它们对目标系统的影响。那么,什么是模块化恶意软件,它是如何工作的? ...
...cebook帐户是一个很好的开始。你应该在你的假档案里放些什么?包括让你看起来像你的目标认识的人的信息。如果你的目标是一名大学生,那么你可以申请就读同一所大学。也许他们会认为他们见过你,只是不记得你是谁。你的...
...际上,这是搜索引擎爬虫唯一能看到的东西。这些标签向网络爬虫提供关于网页的各种信息;当一个人在搜索引擎(如Google)中搜索查询时,诸如网页名称、网页内容、网页创建者、网页更新频率等信息。网络爬虫将搜索页面的...
...可以在不安装任何扩展的情况下更改用户代理。 相关:什么是浏览器的用户代理? 网站通过“用户代理”识别浏览器。更改浏览器的用户代理,它将向网站报告它是不同的浏览器。这允许您请求针对不同浏览器的网页,甚至是...