文章内容

2022/4/24 18:14:05,作 者: 黄兵

你需要知道的 10 大互联网爬虫


机器人和僵尸网络通常与网络犯罪分子窃取数据、身份、信用卡号码和更糟糕的情况有关。但是,机器人也可以有好的目的。将好的机器人与坏的机器人区分开来,也可以在保护你公司的网站和确保你的网站获得应有的互联网流量方面发挥很大作用。

大多数好的机器人基本上都是世界上最大的网站派出的爬虫,为其搜索引擎和社交媒体平台索引内容。你想让这些机器人访问你。它们会给你带来更多的访问量! 如果我们阻止这些好的爬虫抓取我们的网站,将会给我带来损失。

这里,按照爬虫访问任何网站的可能性的倒序排列,是你现在应该知道的10个最重要的好机器人。请确保你的安全策略欢迎这些机器人(或至少知道你为什么选择阻止它们)!

爬虫名称被抓取网站 %爬虫类别
Googlebot96%搜索引擎爬虫
Baidu Spider89%搜索引擎爬虫
MSN Bot/BingBot89%搜索引擎爬虫
Yandex Bot73%搜索引擎爬虫
Soso Spider61%搜索引擎爬虫

了解更多关于十大善意机器人的信息

  1. Googlebot - Googlebot是谷歌的网络抓取机器人(有时也称为 "蜘蛛")。Googlebot 使用一种算法过程:计算机程序决定要抓取哪些网站,多长时间抓取一次,以及从每个网站抓取多少页。Googlebot 的抓取过程从一个网页 URL 列表开始,该列表由以前的抓取过程产生,并由网站管理员提供的网站地图数据加以补充。当 Googlebot 访问这些网站中的每一个页面的时侯,它会检测每个页面上的链接( src 和 herf ),并将它们添加到其要抓取的页面列表中。新网站、现有网站的变化和死链接都会被注意到,并用于更新谷歌索引。

  2. Baiduspider - Baiduspider是百度中文搜索引擎的一个机器人。百度(中文:百度;拼音:Bǎidù)是中国领先的网站、音频文件和图像搜索引擎,Baiduspider 是百度搜索引擎的一个自动程序,它的作用是访问互联网上的网页,建立索引数据库,使用户能在百度搜索引擎中搜索到您网站上的网页。

  3. MSN Bot/Bingbot - 2010 年 10 月退役,重新命名为 Bingbot,这是一个网络抓取机器人(互联网机器人的类型),由微软部署,为Bing(搜索引擎)提供服务。它从网络上收集文件,为 Bing(搜索引擎)建立一个可供搜索的索引。

  4. Yandex Bot - Yandex bot是 Yandex 的搜索引擎的爬行器。Yandex 是一家俄罗斯互联网公司,在俄罗斯经营最大的搜索引擎,在该国拥有约60%的市场份额。截至 2012 年 4 月,Yandex 排名全球第五大搜索引擎,每天的搜索量超过 1.5 亿次,访问者超过 2550 万。

  5. Soso Spider - Soso.com 是腾讯控股有限公司拥有的一个中文搜索引擎,腾讯控股因其另一个创造 QQ 而闻名。根据 Alexa Internet 的数据,截至 2022 年 4 月 24 日,Soso.com 被列为世界上访问量最大的网站第 86 位,在中国访问量最大的网站第 13 位。平均而言,Soso.com 每天有 21,064,490 的页面浏览量,2013 年 9 月 16 日,搜搜搜索与搜狗搜索合并,访问 soso.com 搜索出来的结果却是搜狗提供,同时 Soso Spider 蜘蛛也是用的是 sogou spider

  6. Exabot - Exabot 是来自法国的 ExaLead 的爬虫。ExaLead 由搜索引擎先驱达索系统公司于 2000 年创立,提供搜索和统一的信息访问软件。

  7. Sogou Spider - Sogou.com 是一个中文搜索引擎。它于 2004 年 8 月 4 日推出。截至 2010 年 4 月,它在 Alexa 的互联网排名中的排名为 121。搜狗提供了一个多达 100 亿个网页的索引,搜狗收索引擎的爬虫是 sogou spider

  8. Google Plus 分享 - Google Plus 让你与朋友、联系人和网络的其他部分分享建议--在 Google 搜索上。+1 按钮有助于初始化谷歌的即时分享功能,它还提供了一种给某一事物盖上你的公共印章的方式。

  9. 脸书外部点击 - 脸书允许其用户向其他脸书用户发送有趣的网络内容的链接。这在 Facebook 系统上的部分工作涉及临时显示某些图像或与网络内容有关的细节,如网页的标题或视频的嵌入标签。只有在用户提供链接后,Facebook 系统才会检索到这些信息。

  10. 谷歌 Feedfetcher - 当用户选择将 RSS 或 Atom feeds 添加到他们的谷歌主页或谷歌阅读器时,谷歌用于抓取这些信息。Feedfetcher 收集并定期刷新这些由用户发起的 Feeds,但不会在博客搜索或谷歌的其他搜索服务中索引它们(Feeds 只有在被谷歌机器人抓取后才会出现在搜索结果中)。

分享到:

发表评论

评论列表