文章内容

2022/3/22 16:19:09,作 者: 黄兵

2022年搜索引擎蜘蛛爬虫名称最新整理总汇


我们的网站能在百度、Google、Bing等搜索引擎上搜到,说明该搜索引擎的爬虫爬到了我们的网站并且被搜索引擎收录。

全世界有成千上万的搜索引擎,当然不一定只有搜索引擎才有爬虫蜘蛛,爬虫列表整理了大部分的互联网爬虫。那么每天有这么多蜘蛛访问我们的网站,肯定对网站的产生一些影响,比如流量的损失、占用服务器资源等,严重者甚至造成服务器宕机。

所我们要认识这些蜘蛛,那些对我们是有用的,我们要欢迎。那些是对我们无益的,我们就把它屏蔽掉。

下面整理了一些搜索引擎蜘蛛:


1、BaiduSpider(百度蜘蛛)

常见的百度蜘蛛有:Baiduspider 和 Baiduspider-image(抓取图片)。国内网站大多数流量都来自百度,所以推荐放行。

百度还有其它几个蜘蛛:

Baiduspider-video(抓取视频)

Baiduspider-news(抓取新闻)

Baiduspider-mobile(抓取wap)

仅仅通过 User-agent 判断爬虫还是不准确的,因为 User-agent 可以伪造,我们不仅需要通过 User-agent 和 IP 地址判断,Baiduspider爬虫列表收集和整理了百度大部分蜘蛛的IP地址,即使对方伪造User-agent 我们也可以通过查询IP判断是不是真正的百度蜘蛛了。


2、Googlebot(Google蜘蛛)

常见的谷歌蜘蛛有:Googlebot/2.1、Googlebot-Image/1.0、Googlebot-Mobile/2.1、Google-Site-Verification/1.0、Google favicon、Googlebot-Mobile...总之Google 有各种各样的爬虫,如果不确定是不是真正的Google 爬虫,可以去爬虫IP查询查一下IP看看是不是Google 爬虫。

如果确定是Google 蜘蛛,世界第一大搜索引擎,推荐放行。

仅仅通过 User-agent 判断爬虫还是不准确的,因为 User-agent 可以伪造,我们不仅需要通过 User-agent 和 IP 地址判断,Googlebot爬虫列表收集和整理了Google搜索引擎大部分蜘蛛的IP地址,即使对方伪造User-agent 我们也可以通过查询IP判断是不是真正的百度蜘蛛了。


3、360Spider(360蜘蛛)

一个十分“勤奋抓爬”的蜘蛛,是360搜索引擎的蜘蛛,主要User-agent 为:

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider

Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1;360Spider

他的Usre-agent 变体非常多,不仅仅是以上两个。


4、Sogou web spider(搜狗蜘蛛)

搜狗公司还有其它几个蜘蛛:Sogou News Spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider,搜狗蜘蛛最常见的User-agent是:Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)Mozilla/5.0 (Windows NT 6.1; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0、Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Mobile Safari/537.36

仅仅通过 User-agent 判断爬虫还是不准确的,因为 User-agent 可以伪造,我们不仅需要通过 User-agent 和 IP 地址判断,sogou spider爬虫列表收集和整理了搜狗大部分蜘蛛的IP地址,即使对方伪造User-agent 我们也可以通过查询IP判断是不是真正的搜狗蜘蛛了。


5、Bingbot(必应蜘蛛)

必应是微软的搜索引擎,微软的IE浏览器和Edge浏览器会默认使用该搜索引擎,国内有一部分用户,他的User-agent是:

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/98.0.4758.102 Safari/537.36等等,我们可以到这里查看更过的Bingbot 蜘蛛IP列表。


7、Yahoo! Slurp China(雅虎中国)或 Yahoo! Slurp(雅虎英文)

雅虎蜘蛛爬虫在国内不是很活跃,同时中国也很少有人使用yahoo搜索了。


8、MSNBot,MSNot-media(MSN蜘蛛)

MSNBOT应该是 bing 搜索的蜘蛛,MSN和bing是一家的,可以只保留 Bingbot。


9、YisouSpider(一搜蜘蛛/神马搜索)

神马搜索是UC和阿里2013年已经成立合资公司推出的移动搜索引擎。

该蜘蛛抓取频率还是很高的,很多人并不看好或者是把它当作恶意爬虫给屏蔽了,不过如果屏蔽的话,会损失 UC浏览器的流量来源。自己斟酌吧!


10、ByteDance crawler(字节跳动蜘蛛)

2019年8月12日消息,字节跳动旗下头条搜索网页版日前正式上线,网址为https://m.toutiao.com/search ,目前只有简单的搜索页面,它的Slogan为:搜你想搜的。字节跳动的搜索引擎User-agent如下:

Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36

Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)


11、还有一些蜘蛛,不会给网站带来流量,还会占用资源,建议屏蔽之。

YoudaoBot(有道蜘蛛):网易有道的蜘蛛,并不会带来流量。

JikeSpider(即刻蜘蛛):“即刻搜索”是由人民搜索网络股份公司于2011年6月20日推出的通用搜索引擎平台。

EasouSpider(宜搜蜘蛛):宜搜是主要针对手机端的搜索引擎,非常傻帽的一个爬虫,建议屏蔽之。

ToutiaoSpider(头条号):今日头条的头条号蜘蛛,不能带来流量,屏蔽好啦。

MJ12bot: 英国的一个搜索引擎,官方解释为:成千上万的企业使用13种语言和60多个国家来绘制互联网地图,独立于基于消费者的搜索引擎。

YandexBot:是俄罗斯最大的搜索引擎yandex的搜索引擎爬虫,通过内的百度一样,他主要是面对欧洲那边的用户。

Rogerbot:Moz 网站的机器人。与 Moz 的官方机器人 DotBot 不同,Rogerbot 似乎不再是一个合法的机器人。

DotBot:嗯,看到这你应该懂了。

exabot:Exalead或Dassault Systemes网站的机器人。

ia_archiver(Alexa蜘蛛):Alexa 的网站和网站审计爬虫。

Teoma:是美国 Ask Jeeves 搜索引擎的蜘蛛,在美国占 5% 的搜索份额。

gigabot:搜索到的是一个 3D 打印公司,没什么乱用,屏蔽即可。

DOCOMO Sprider:日本 NTT DoCoMo 旗下的搜索引擎蜘蛛,是垃圾搜索引擎爬虫,有看到你的日志里面有这只蜘蛛,直接毫不犹豫的禁掉。

AhrefsBot:国外的一个网站监控工具。

以上就是我通过IP查询 - 爬虫识别这个网站整理的护粮网上常见的蜘蛛,当然世界上个人或者公司开发的蜘蛛非常多,如果你觉得上面有缺失,欢迎在下面留言提交,我再补充。

rogerbot
agentslug 网站可用性监控
分享到:

发表评论

评论列表