什么是网络爬虫?(a web crawler?)

网络爬虫是一个相对简单的自动化程序或脚本,它系统地扫描或“爬行”互联网页面,以创建它正在寻找的数据索引;这些程序通常只使用一次,但也可以编程长期使用。该程序有多种用途,也许最流行的是搜索引擎,它们使用它为网络冲浪者提供相关网站。其他用户包括语言学家和市场研究人员,或者任何试图以有组织的方式从互联网上搜索信息的人。网络爬虫的可选名称包括网络蜘蛛、网络机器人、机器人、爬虫和自动索引器。爬虫程序可以在互...

网络爬虫是一个相对简单的自动化程序或脚本,它系统地扫描或“爬行”互联网页面,以创建它正在寻找的数据索引;这些程序通常只使用一次,但也可以编程长期使用。该程序有多种用途,也许最流行的是搜索引擎,它们使用它为网络冲浪者提供相关网站。其他用户包括语言学家和市场研究人员,或者任何试图以有组织的方式从互联网上搜索信息的人。网络爬虫的可选名称包括网络蜘蛛、网络机器人、机器人、爬虫和自动索引器。爬虫程序可以在互联网上购买,也可以从许多销售计算机软件的公司购买,这些程序可以下载到大多数计算机上。

Web crawlers and other similar technologies use algorithms, complex mathematical equations, which are the keys to producing targeted results in searches.

常用

网络爬虫有多种用途,但本质上,任何试图在互联网上收集信息的人都可以使用网络爬虫。搜索引擎经常使用网络爬虫来收集关于公共网页上可用内容的信息。他们的主要目的是收集数据,以便当互联网冲浪者在他们的网站上输入搜索词时,他们可以快速向冲浪者提供相关的网站。语言学家可以使用网络爬虫进行文本分析;也就是说,他们可能会梳理互联网,以确定当今常用的词汇。市场研究人员可以使用网络爬虫来确定和评估给定市场的趋势。

Web crawlers scan through Internet pages to create an index of data.

Web爬行是在迅速发展的Internet上收集数据并跟上其步伐的一种重要方法。每天都有大量的网页在不断添加,信息也在不断变化。网络爬虫是搜索引擎和其他用户定期确保其数据库最新的一种方式。有许多非法使用网络爬虫的行为,比如黑客入侵服务器获取比免费提供的更多的信息。

工作原理

当搜索引擎的网络爬虫访问网页时,它会“读取”网站中使用的各种标记的可见文本、超链接和内容,例如富含关键字的元标记。使用从爬虫程序收集的信息,搜索引擎将确定该站点的内容并对信息进行索引。然后,该网站被包括在搜索引擎的数据库及其页面排名过程中。

网络爬虫可能只运行一次,比如针对特定的一次性项目。如果它的目的是为了一些长期的东西,比如搜索引擎,网络爬虫可能会被编程来定期梳理互联网,以确定是否有任何重大的变化。如果一个站点遇到了大量的流量或技术问题,爬行器可能会被编程为注意到这一点并再次访问该站点,希望在技术问题解决之后。

Web crawlers can be operated for a particular one-time project.

  • 发表于 2021-12-12 17:44
  • 阅读 ( 242 )
  • 分类:互联网

你可能感兴趣的文章

如何用selenium制作网络爬虫

... 您是否有任何项目受益于使用硒?你面临什么问题?请在下面的评论中描述。 ...

  • 发布于 2021-03-11 23:41
  • 阅读 ( 360 )

搜索引擎是如何工作的?

...托管在tornetwork上的网站,不能被搜索引擎编入索引。(什么是TOR和洋葱路由?) ...

  • 发布于 2021-03-12 13:31
  • 阅读 ( 167 )

探索隐形网络的12个最佳搜索引擎

... 什么是看不见的网(the invisible web)? ...

  • 发布于 2021-03-20 15:38
  • 阅读 ( 229 )

5种发现你可能喜欢的youtube新频道或用户的方法

... 频道搜索(网络):分类列表和最新频道 ...

  • 发布于 2021-03-24 08:47
  • 阅读 ( 310 )

最好的网上刮网工具

... 相关:什么是网页抓取?如何从网站收集数据 ...

  • 发布于 2021-03-28 12:12
  • 阅读 ( 230 )

什么是浏览器的用户代理?

...们以前写过关于更改浏览器的用户代理的文章,但是到底什么是用户代理呢? 用户代理是一个“字符串”,即一行文本,用于向web服务器标识浏览器和操作系统。这听起来很简单,但随着时间的推移,用户代理已经变得一团糟...

  • 发布于 2021-04-09 02:09
  • 阅读 ( 2214 )

如何使用thinkup存档、搜索和查看您的tweet统计信息

...。哪个命令?当然,ThinkUp建议的那个! cd /var/www/thinkup/crawler/;export THINKUP_PASSWORD=yourpassword; /usr/bin/phpcrawl.php [email protected] 请务必输入密码并检查此命令中的电子邮件地址!这将确保每小时ThinkUp都刷新自己以获取新数据。如果您...

  • 发布于 2021-04-13 02:04
  • 阅读 ( 178 )

浏览器(browser)和搜索引擎(search engine)的区别

...搜索引擎,而Firefox是一个web浏览器。 覆盖的关键领域 1.什么是浏览器-定义,功能2.什么是搜索引擎-定义,功能3.浏览器和搜索引擎的区别是什么-主要区别比较 关键术语 浏览器、搜索引擎、网站、万维网 什么是浏览器(a browser)...

  • 发布于 2021-07-01 05:26
  • 阅读 ( 797 )

应用服务器(application server)和web服务器(web server)的区别

...一个应用程序可以在其中运行的环境,而不管应用程序是什么。 web服务器可以指硬件或软件,它们有助于传递可通过Internet访问的web内容。 基本上是这样的 它通过各种协议(包括HTTP)将业务逻辑传输到客户机应用程序。 它只...

  • 发布于 2021-07-13 20:10
  • 阅读 ( 149 )

什么是网络爬虫,它是如何工作的?

你有没有在Google上搜索过什么东西,然后想知道,“它怎么知道去哪里找?”答案是“网络爬虫”,它搜索网络并索引,这样你就可以在网上很容易地找到东西。我们会解释的。 搜索引擎和爬虫 当你在谷歌(Google)或必应...

  • 发布于 2021-07-14 07:45
  • 阅读 ( 111 )