搜索引擎蜘蛛ip照妖镜
通过该工具可以识别是否是真的搜索引擎蜘蛛IP,很多是通过user-agent伪造的,帮大家节省垃圾流量带宽.不少伪造的爬虫程序会伪造 user-agent冒充baidu、google等搜索擎,好在google,baidu,bing等搜索引擎都提供一个DNS反向IP查询功能。
目前支持识别的搜索引擎ip蜘蛛:
百度蜘蛛;谷歌蜘蛛;神马蜘蛛;必应蜘蛛;搜狗蜘蛛;yandex蜘蛛;360蜘蛛;头条蜘蛛
使用场景
对于一个攻击者,或者采集者,伪装成搜索引擎,很容易躲过你的肉眼检查,兴奋的你还在为搜索引擎来访而洋洋得意的时候,其实是个假蜘蛛
如果你的站点对搜索引擎蜘蛛要求比较精细,你可以通过openresty的resty.dns.resolver模块+user-agent,在content_by_lua_file中实现精确的访客控制!
通过ip反向查询蜘蛛,可以让假引擎蜘蛛现行,直接扼杀在黑名单中!
识别出假蜘蛛处理的方法有很多,不再一一细说!
实现原理
部分官方已明确给出了确定真实蜘蛛的方法,比如百度官网所说,可以使用dns反向解析,可以确认正确的蜘蛛,比如:
E:\bugscansplit>nslookup 220.181.108.80 服务器: public1.114dns.com Address: 114.114.114.114 名称: baiduspider-220-181-108-80.crawl.baidu.com Address: 220.181.108.80
那么后缀为.baidu.com的就是真实的蜘蛛,其他同理,都有相应的反向域名后缀标志,通过收集这些后缀,就形成了这个工具!
以下是收集一部分的搜索引擎的特征
搜索引擎 | user-agent | 备注 |
---|---|---|
百度 | Baiduspider/2.0 Baiduspider-image |
常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻) 百度蜘蛛IP:
|
Bing | bingbot/2.0 | Bing蜘蛛IP:
|
Googlebot/2.1 | Google蜘蛛IP:
|
|
搜狗sogou | Sogou+web+spider/4.0 | 搜狗蜘蛛IP:
|
神马搜索 | Yisouspider | 原属一搜蜘蛛。 神马搜索IP:
|
360搜索 | 360Spider | 360搜索蜘蛛IP:
|
今日头条 | Bytespider | 今日头条蜘蛛IP:
|
Yahoo | Yahoo! | Yahoo蜘蛛IP:
|
以下是收集一部分的未知的爬虫特征
爬虫名称 | user-agent 特征 | 备注 |
---|---|---|
The Knowledge AI | The+Knowledge+AI |
爬虫IP:
|
AhrefsBot | AhrefsBot/6.1 |
AhrefsBot是一个营销网站的爬取蜘蛛,负责分析网站信息。(建议禁止这些IP)爬虫IP:
|
SemrushBot | SemrushBot/6~bl |
SemrushBot也是一个营销网站的爬取蜘蛛,负责分析网站信息。(建议禁止这些IP)爬虫IP:
|