为什么要控制 Googlebot 抓取速度?

有时会很高兴地看到,Google 几乎是在瞬间抓取您的网站。 但这对于大多数网站来说不是必需的,因为内容可能每天更新一次,甚至更长的时间间隔。 在内容没有更新的这种情况下,搜索引擎爬虫或机器人继续在网站上寻找更新是没有意义的。 在本文中,我们将了解您为什么要控制 Googlebot 以及如何控制 Googlebot 和其他搜索引擎爬虫的抓取速度。

为什么要控制 Googlebot 抓取速度?

当您有多个站点或更大的站点时,搜索引擎机器人的持续爬取将对服务器性能产生不利影响。 因此,有必要控制爬取您网站的机器人的爬取速率,而 Googlebot 是您在许多情况下应该控制的第一个。

  • 无论是搜索引擎机器人还是真实用户,都会使用您的服务器资源。
  • 高爬取率将导致高 CPU 利用率,最终可能需要为额外资源支付更多费用。 在共享托管环境中,您的主机可能会停止服务以保护托管在同一服务器上的其他站点。
  • 当 Googlebot 抓取网站时,网站上的真实用户可能会感到缓慢。 特别是当您拥有电子商务网站时,必须控制 Googlebot 和其他经常抓取的机器人。

如果您的网站较小且流量有限,您可能不会看到机器人有任何问题。 当您有多个站点每天吸引成千上万的访问者时,您会注意到由于爬虫的活动导致 CPU 使用率猛增。 当 CPU 利用率很高时,您可能会收到来自托管公司的警告消息,或者您的帐户将被暂停,要求您采取必要的措施。

如何监控 Googlebot?

有两种方法可以监控 Googlebot 的抓取活动。 一种是从您的 Google Search Console 中进行检查,另一种是从您的托管帐户进行监控。

登录到您的 Google Search Console 帐户并导航到“抓取 > 抓取统计”部分。 在这里,您可以查看过去 90 天时间范围内的 Googlebot 活动。 您将看到三个图表——每天抓取的页面、每天下载的千字节以及下载页面所花费的时间(以毫秒为单位)。 这些图表将让您全面了解 Googlebot 在您的网站上所做的事情。

Googlebot 在您的网站上花费的时间

Googlebot 在您的网站上花费的时间

第二种也是最有效的方法是通过您的主机帐户监控服务器上的活动。 登录到您的托管帐户并查找其中一种统计报告工具。 在这种情况下,我们使用几乎所有共享托管服务提供商(如 Bluehost、SiteGround 等)提供的 Awstats 进行解释。

打开 Awstats 应用程序并选择您的站点以查看统计信息。 在“机器人/蜘蛛访问者”部分查看最活跃的机器人列表。

从 Awstats 监控机器人

从 Awstats 监控机器人

您还可以使用 WordFence 等插件来监控实时流量和 Googlebot 活动。

如何控制 Googlebot 的抓取速度?

当您注意到 Googlebot 正在抓取您的网站并消耗大量带宽时,就该控制抓取速度了。 一些托管公司通过在 robots.txt 文件中添加条目来自动控制抓取延迟。 您可以从 Google Search Console 手动控制 Googlebot 的抓取速度。 登录到您的 Search Console 帐户后,单击齿轮设置图标并选择“站点设置”选项。

在 Google Search Console 中访问抓取控制设置

在 Google Search Console 中访问抓取控制设置

您将在“抓取速度”部分看到两个选项。

Googlebot 抓取速度控制

Googlebot 抓取速度控制

  • 让 Google 优化我的网站(推荐)
  • 限制 Google 的最大抓取速度

选择第二个单选按钮并将进度条向下拖动到任何所需的速率。 这将设置每秒的请求数和抓取请求之间的秒数。

在 Google Search Console 中更改抓取控制

在 Google Search Console 中更改抓取控制

您可以与您的托管公司讨论,以了解需要多少抓取速度。 保存设置后,将收到一条消息,通知抓取速度已更改。

新的抓取速度设置将在 90 天内有效,并在到期后自动重置为第一个选项“让 Google 为我的网站进行优化”。

必应呢?

与 Googlebot 类似,您也可以在 Bing Webmaster Tools 下限制 Bingbot。 登录到您的帐户后,导航到“配置我的网站 > 抓取控制”部分。 为“您在一天中的当地时间何时收到最多访问此站点的流量?”选择“自定义”选项

必应网站管理员工具中的抓取控制

必应网站管理员工具中的抓取控制

通过选择图表上的蓝色框来调整抓取速度。

其他搜索引擎爬虫

除了 Google 和 Bing,还有许多其他机器人可以抓取您的网站。 您可以使用通用 .htaccess 指令阻止所有其他机器人。 在您的 .htaccess 文件中添加以下代码以阻止除 Google、Bing、MSN、MSR、Yandex 和 Twitter 之外的所有机器人。 所有其他机器人将被重定向到本地主机 IP 地址 127.0.0.1。

#Disable bad bots
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^$ [OR]
RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot)
RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC]
RewriteRule ^/?.*$ "http\:\/\/127\.0\.0\.1" [R,L]

您还可以通过 IP 地址监控流量统计并阻止垃圾邮件流量。

结论

有必要监视和控制您网站上的爬虫活动,以便将托管服务器的 CPU 利用率保持在允许的范围内。 我们已经解释了一些方法,还有许多其他方法可以阻止坏机器人。 与您的主机讨论并确保您做正确的事情并且只阻止不良机器人也是一个好主意。

  如何将您的网站提交给百度?

类似文章