Naver搜索引擎爬虫的两种判断方式:(User-Agent)Yeti以及IP反向DNS

0oD三一o0

温馨提示:这篇文章已超过740天没有更新,请注意相关的内容是否还可用!

如何判断Naver搜索引擎爬虫

代表用户访问网页的 S/W 在User-Agent中指定自己的名称。不仅网络浏览器而且搜索引擎爬虫都有自己的用户代理,Naver 搜索引擎爬虫使用了 Yeti 这个名字。

许多网站运行防火墙以防止某些恶意访问。如果我的站点无法被收集,需要检查指定为 Yeti 的 Naver 搜索引擎爬虫是否因防火墙策略而被阻止访问该站点。

Naver的搜索引擎爬虫有两种分类方式:一种是使用User-Agent,一种是通过IP通过反向DNS查找。

按用户代理名称检查

请在防火墙中允许 Naver Search Robot 访问。Naver 搜索引擎爬虫(User-Agent)的名称是 Yeti。编号版本如有更改,恕不另行通知。

Mozilla/5.0 (compatible; Yeti/1.1; +http://naver.me/spd)

在收集网页中的资源(例如 JavaScript 和 CSS)时,Yeti 会附加到浏览器 User-Agent 的末尾。

Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebit/53.7.36 (KHTML, like Gecko) Chrome/63.0.3239.0 Safari/537.36 (compatible; Yeti/1.1; +http://naver.me/spd)

核对IP信息

可以使用通常作为 HTTP 标头传递的用户代理信息来识别搜索引擎爬虫的访问。但是,由于请求者可以任意输入此信息,因此使用以下方法来检查访问是否真的是由 Naver 搜索引擎爬虫进行的。

  1. 在 Web 服务器日志或防火墙访问记录中对访问者的 IP 地址执行反向 DNS 查找,以检查搜索的域是否以 .naver.com 结尾。

  2. 对上面获得的域进行 DNS 查找,以验证它是否与原始 IP 地址相同。

* 예시 (리눅스)$ host 125.209.235.169169.235.209.125.in-addr.arpa domain name pointer crawl.125-209-235-169.web.naver.com.$ host crawl.125-209-235-169.web.naver.comcrawl.125-209-235-169.web.naver.com has address 125.209.235.169
* 예시 (Windows, 윈도우키 + R 입력 후 cmd 실행)C:\Users> nslookup 125.209.235.169Server: cns1.naver.comAddress: 10.22.64.6Name: crawl.125-209-235-169.web.naver.comAddress: 125.209.235.169C:\Users> nslookup crawl.125-209-235-169.web.naver.comServer: cns1.naver.comAddress: 10.22.64.6Name: crawl.125-209-235-169.web.naver.comAddress: 125.209.235.169


免责声明:本文来自Naver站长平台,不代表0oD三一o0的观点和立场,如有侵权请联系本平台处理。

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,1447人围观)

还没有评论,来说两句吧...

取消
微信二维码
微信二维码
支付宝二维码