搜索爬虫“Bingbot”不遵守robots.txt规则过度抓取网站的解决方法

0oD三一o0

2022-05-06 2.08 K阅读 0评论

温馨提示：这篇文章已超过1200天没有更新，请注意相关的内容是否还可用！

如何反馈 Bingbot 问题？

Bingbot 是 Bing 用于抓取或“蜘蛛”网络的爬虫的名称。Bingbot 的工作是在 Internet 上的网站上查找新的和更新的页面，以便对其进行处理以进行索引。抓取网站时，Bingbot 会查看 robots.txt 以获取网站所有者的特殊说明。Bingbot 尊重 robots.txt 指令，包括crawl-delay:设置，并且在没有 crawl-delay 的情况下，尊重来自网站管理员在爬行控制功能中的输入。

一般来说，Bingbot 可以很好地确定它应该多频繁地访问您网站上的页面，同时考虑 robots.txt 和抓取控制规则和提示。我们称之为“爬行礼貌”。但是，仍然可能存在您觉得 Bingbot 不够礼貌并且访问您的页面而不是为您工作（过度爬网）的情况。

搜索爬虫过度抓取

如果您认为 Bingbot 过度抓取您的网站或不遵守 robots.txt 规则，可以按照以下步骤操作：

验证您看到的机器人流量实际上来自有效的 Bingbot 服务器。为此，您不仅可以查看 User-Agent 字符串（任何人都可以轻松欺骗该字符串），还可以查看 IP 地址并使用验证 Bingbot 工具来获得结论；
一旦您确认这涉及真正的 Bingbot 流量，您可以按如下方式减少爬虫流量（如果您还没有这样做的话）；
使用爬行控制功能在繁忙时间降低爬行速度；
如果这还不够，请在 robots.txt 中添加 crawl-delay: 指令：Bing 支持从 1 到 20 的整数值。每个数字映射到我们划分 24 小时抓取周期的时间片的长度（以秒为单位） . 在这种情况下，值 1 意味着您允许我们在每个 1 秒的时间片上最多发送一个请求——这很慢，但对于较小的站点来说仍然足够。20 非常慢，这意味着在 24 小时的爬网周期中，每 20 秒的时间片只允许一个请求；
如果您执行了第 1 步和第 2 步，但问题仍然存在，您可以联系Bing 网站管理员支持。填写必填字段并在“您遇到什么类型的问题？” 下拉菜单中，选择“ Under-Crawling or Over-Crawling query ”并描述您遇到的问题。您可以在 24-48 小时内收到回复。当您报告过度抓取问题时，支持团队会要求您在下一步中提供服务器日志样本，以显示一段时间内 Bingbot 的活动，因此请确保准备好这些样本。

免责声明：本文来自必应站长中心，不代表0oD三一o0的观点和立场，如有侵权请联系本平台处理。

搜狗搜索使用中常见的11种问题（附解决方法）

什么是360安全浏览器阅读模式？怎么开启阅读模式？

相关阅读

必应的“首次点击免费”实施指南（Bing First-Click Free Implementation）

必应爬虫概述（用户代理）Overview of Bing crawlers (user-agents)

IndexNow是什么？对我们的网站有什么帮助？（附IndexNow即时收录代码提交示例教程与常见问题）

必应搜索Spider机器人元标签（2020年夏季开始支持的元标记）

必应AMP缓存机制概述（AMP网页发现、选择、抓取、验证四步原理）

Silverlight、Adobe Flash和其它基于RIA的内容如何进行SEO优化

如何正确创建Robots.txt文件？（网站爬虫协议Robots.txt的创建步骤）

如何判断必应搜索爬虫Bingbot？四种方法验证搜索爬虫IP地址是否来自必应搜索

发表评论取消回复

评论列表（暂无评论，2080人围观）

还没有评论，来说两句吧...

微信二维码

微信二维码

支付宝二维码