什么是网络爬虫？(a web crawler?)

网络爬虫是一个相对简单的自动化程序或脚本，它系统地扫描或“爬行”互联网页面，以创建它正在寻找的数据索引；这些程序通常只使用一次，但也可以编程长期使用。该程序有多种用途，也许最流行的是搜索引擎，它们使用它为网络冲浪者提供相关网站。其他用户包括语言学家和市场研究人员，或者任何试图以有组织的方式从互联网上搜索信息的人。网络爬虫的可选名称包括网络蜘蛛、网络机器人、机器人、爬虫和自动索引器。爬虫程序可以在互...

Web crawlers and other similar technologies use algorithms, complex mathematical equations, which are the keys to producing targeted results in searches.

常用

网络爬虫有多种用途，但本质上，任何试图在互联网上收集信息的人都可以使用网络爬虫。搜索引擎经常使用网络爬虫来收集关于公共网页上可用内容的信息。他们的主要目的是收集数据，以便当互联网冲浪者在他们的网站上输入搜索词时，他们可以快速向冲浪者提供相关的网站。语言学家可以使用网络爬虫进行文本分析；也就是说，他们可能会梳理互联网，以确定当今常用的词汇。市场研究人员可以使用网络爬虫来确定和评估给定市场的趋势。

Web crawlers scan through Internet pages to create an index of data.

Web爬行是在迅速发展的Internet上收集数据并跟上其步伐的一种重要方法。每天都有大量的网页在不断添加，信息也在不断变化。网络爬虫是搜索引擎和其他用户定期确保其数据库最新的一种方式。有许多非法使用网络爬虫的行为，比如黑客入侵服务器获取比免费提供的更多的信息。

工作原理

当搜索引擎的网络爬虫访问网页时，它会“读取”网站中使用的各种标记的可见文本、超链接和内容，例如富含关键字的元标记。使用从爬虫程序收集的信息，搜索引擎将确定该站点的内容并对信息进行索引。然后，该网站被包括在搜索引擎的数据库及其页面排名过程中。

网络爬虫可能只运行一次，比如针对特定的一次性项目。如果它的目的是为了一些长期的东西，比如搜索引擎，网络爬虫可能会被编程来定期梳理互联网，以确定是否有任何重大的变化。如果一个站点遇到了大量的流量或技术问题，爬行器可能会被编程为注意到这一点并再次访问该站点，希望在技术问题解决之后。

Web crawlers can be operated for a particular one-time project.

发表于 2021-12-12 17:44
阅读 ( 242 )
分类：互联网

你可能感兴趣的文章

如何用selenium制作网络爬虫

... 您是否有任何项目受益于使用硒？你面临什么问题？请在下面的评论中描述。 ...

发布于 2021-03-11 23:41
阅读 ( 360 )

搜索引擎是如何工作的？

...托管在tornetwork上的网站，不能被搜索引擎编入索引。（什么是TOR和洋葱路由？） ...

发布于 2021-03-12 13:31
阅读 ( 167 )

探索隐形网络的12个最佳搜索引擎

... 什么是看不见的网(the invisible web)？ ...

发布于 2021-03-20 15:38
阅读 ( 229 )

5种发现你可能喜欢的youtube新频道或用户的方法

... 频道搜索（网络）：分类列表和最新频道 ...

发布于 2021-03-24 08:47
阅读 ( 310 )

最好的网上刮网工具

... 相关：什么是网页抓取？如何从网站收集数据 ...

发布于 2021-03-28 12:12
阅读 ( 230 )

什么是浏览器的用户代理？

...们以前写过关于更改浏览器的用户代理的文章，但是到底什么是用户代理呢？用户代理是一个“字符串”，即一行文本，用于向web服务器标识浏览器和操作系统。这听起来很简单，但随着时间的推移，用户代理已经变得一团糟...

发布于 2021-04-09 02:09
阅读 ( 2214 )

如何使用thinkup存档、搜索和查看您的tweet统计信息

...。哪个命令？当然，ThinkUp建议的那个！ cd /var/www/thinkup/crawler/;export THINKUP_PASSWORD=yourpassword; /usr/bin/phpcrawl.php [email protected] 请务必输入密码并检查此命令中的电子邮件地址！这将确保每小时ThinkUp都刷新自己以获取新数据。如果您...

发布于 2021-04-13 02:04
阅读 ( 178 )