搜索爬虫“Bingbot”不遵守robots.txt规则过度抓取网站的解决方法

0oD三一o0

温馨提示:这篇文章已超过714天没有更新,请注意相关的内容是否还可用!

如何反馈 Bingbot 问题?

Bingbot 是 Bing 用于抓取或“蜘蛛”网络的爬虫的名称。Bingbot 的工作是在 Internet 上的网站上查找新的和更新的页面,以便对其进行处理以进行索引。抓取网站时,Bingbot 会查看 robots.txt 以获取网站所有者的特殊说明。Bingbot 尊重 robots.txt 指令,包括crawl-delay:设置,并且在没有 crawl-delay 的情况下,尊重来自网站管理员在爬行控制功能中的输入。

一般来说,Bingbot 可以很好地确定它应该多频繁地访问您网站上的页面,同时考虑 robots.txt 和抓取控制规则和提示。我们称之为“爬行礼貌”。但是,仍然可能存在您觉得 Bingbot 不够礼貌并且访问您的页面而不是为您工作(过度爬网)的情况。

搜索爬虫过度抓取

如果您认为 Bingbot 过度抓取您的网站或不遵守 robots.txt 规则,可以按照以下步骤操作:

  1. 验证您看到的机器人流量实际上来自有效的 Bingbot 服务器。为此,您不仅可以查看 User-Agent 字符串(任何人都可以轻松欺骗该字符串),还可以查看 IP 地址并使用验证 Bingbot 工具来获得结论;

  2. 一旦您确认这涉及真正的 Bingbot 流量,您可以按如下方式减少爬虫流量(如果您还没有这样做的话);

  3. 使用爬行控制功能在繁忙时间降低爬行速度;

  4. 如果这还不够,请在 robots.txt 中添加 crawl-delay: 指令:Bing 支持从 1 到 20 的整数值。每个数字映射到我们划分 24 小时抓取周期的时间片的长度(以秒为单位) . 在这种情况下,值 1 意味着您允许我们在每个 1 秒的时间片上最多发送一个请求——这很慢,但对于较小的站点来说仍然足够。20 非常慢,这意味着在 24 小时的爬网周期中,每 20 秒的时间片只允许一个请求;

  5. 如果您执行了第 1 步和第 2 步,但问题仍然存在,您可以联系Bing 网站管理员支持。填写必填字段并在“您遇到什么类型的问题?” 下拉菜单中,选择“ Under-Crawling or Over-Crawling query ”并描述您遇到的问题。您可以在 24-48 小时内收到回复。当您报告过度抓取问题时,支持团队会要求您在下一步中提供服务器日志样本,以显示一段时间内 Bingbot 的活动,因此请确保准备好这些样本。

免责声明:本文来自必应站长中心,不代表0oD三一o0的观点和立场,如有侵权请联系本平台处理。

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,1044人围观)

还没有评论,来说两句吧...

取消
微信二维码
微信二维码
支付宝二维码