如何阻止 Google 和 Bing 访问您的网站?

Google 每天至少使用一次 Googlebot 抓取工具来抓取网页并将其编入索引。 通常,抓取基于您在 Google Search Console 中提交的 XML Sitemap。 但是,与普通内容网站相比,新闻网站的抓取频率可能会发生变化并且速度会更快。 同样,Bing 也使用 Bingbot 爬虫来爬取页面。 一方面,网站管理员希望 Google 和 Bing 立即索引他们的页面,另一方面,在某些情况下,您必须阻止这些爬虫来停止爬取整个网站或您网站上的某些页面。 在本文中,我们将解释如何屏蔽 Googlebot 和 Bingbot,屏蔽爬虫后会发生什么以及出现爬取问题的常见原因。

阻止 Googlebot 和 Bingbot

根据您需要的严重程度,有多种方法可以阻止您的网页访问 Google 和 Bing。

1. 使用 Robots.txt 进行拦截

阻止爬虫的最流行和最常见的方法是在 robots.txt 文件中使用指令。 例如,插入以下行将阻止 Google 和 Bing 访问您网站上的页面。

User-agent: Googlebot
Disallow: /your-page-url

User-agent: Bingbot
Disallow:  /your-page-url

尽管 Google 和 Bing 遵循 robots.txt 文件,但如果被阻止的页面是从另一篇已编入索引的文章链接的,它就不起作用。 它可以来自您的网站,也可以来自您无法控制的外部网站。

2. 使用 .htaccess 来阻止

虽然不常见,但有些人更喜欢使用 .htaccess 指令来阻止爬虫。 这类似于阻止 Googlebot 和 Bingbot 的 IP 地址,从而阻止对上述页面或目录的完全访问。

RewriteEngine On
RewriteCond %{REQUEST_URI} ^/your-page-url
RewriteRule ^(.*)$ - [F,L]

3. 阻止 Googlebot 和 Bingbot IP 地址

上述方法的问题是您需要具有服务器访问权限才能编辑文件。 此外,您在编辑 robots.txt 和 .htaccess 文件时也可能会出错。 另一种有效的选择是使用阻止 Googlebot 和 Bingbot IP 地址。 谷歌必应 为可用于阻止目的的爬虫提供更新的 IP 地址。 这些 IP 地址采用 JSON 格式,您需要从中提取 IP 范围并使用。 请记住,这些是用于 Googlebot 和 Bingbot 搜索爬虫,而不是用于其他目的,例如 AdSense 爬虫或 Microsoft 广告爬虫。

使用主机面板

如果您有服务器访问权限,则可以使用主机面板中提供的 IP 阻止工具。 例如,HostGator 在其 cPanel 的“安全”部分下提供了一个名为 IP Deny Manager 的“IP Blocker”应用程序。

HostGator cPanel 中的 IP 拦截器
HostGator cPanel 中的 IP 拦截器

您可以在所有 cPanel 托管公司(如 Bluehost)中找到类似的工具。 单击 IP Blocker 应用程序并提供 Googlebot 或 Bingbot 的 IP 范围以阻止访问。 例如,您可以使用以下方法之一提供 Googlebot IP 地址:

  • 使用 JSON 文件中给出的 CIDR 格式,如 66.249.64.0/27。
  • 隐含的 IP 范围,如 66.249.66.0-255
  • 通配符范围如 66.249.*.*
  • 只需输入 googlebot.com,因为大多数 Goolgebot 用户代理都来自此主机名。
在 cPanel 中阻止 Googlebot 和 Bingbot
在 cPanel 中阻止 Googlebot 和 Bingbot

通常,阻止一个或几个 IP 地址就足以阻止访问。 但是,您可以使用通配符或主机名来阻止整个访问。

为 WordPress 使用安全插件

否则,如果您使用的是 WordPress 之类的内容管理系统,那么您有很多安全插件可以阻止来自站点管理员面板的机器人和 IP 地址,而无需访问托管帐户。 例如,SiteGround Security 插件允许您监控网站的实时流量。 您可以根据用户代理名称找到 Googlebot 和 Bingbot IP 地址,并在管理面板中单击几下即可阻止。

在 SiteGround 安全插件中阻止 IP
在 SiteGround 安全插件中阻止 IP

这些是有效的方法,尤其是当您想阻止 Google 和 Bing 访问您的整个网站时。

4. 隐藏授权页面

这对于通过设置权限来限制搜索引擎对页面的访问非常有用。 例如,银行和会员网站将个性化内容隐藏在登录授权后面,这样搜索引擎就无法访问这些内容。 基于内容的机密性,您可能需要应用防火墙、阻止用户配置文件等。强烈建议聘请开发人员并在所需目录级别正确设置限制,以便 Google 不会抓取禁止部分。

控制爬行速率或爬行频率

如果您发现 Googlebot 和 Bingbot 对服务器资源的消耗较高,您可以控制抓取速度或抓取频率。 抓取速度是 Googlebot 或 Bingbot 每秒发出的从您的网站获取内容的请求数。 对于高流量网站,控制爬虫程序的爬取速度对于调整服务器资源至关重要。 详细了解如何在 Bing 网站管理员工具中更改 Bingbot 的抓取速度。

但是,Google 会自动使用优化的抓取速度从您的网站抓取内容。 您可以从 Google Search Console 帐户查看此内容。 如果您对当前的抓取频率不满意,请向 Google 提出特殊要求。 新的抓取速度将在接下来的 90 天内有效,并在该期限后重置为优化设置。 详细了解为什么应该控制 Googlebot 抓取速度。

阻止 Googlebot 和 Bingbot 时会发生什么?

当您阻止页面或站点 URL 时,您将分别在 Google Search Console 和 Bing 网站管理员工具中看到不同类型的错误。 以下是您会在 Search Console 帐户中注意到的一些常见错误:

  • 当您使用 robots.txt 指令时,URL 被 Robots.txt 阻止。
  • 带有类似“提交的 URL 似乎是一个软 404”的消息的软 404。
  • 部分抓取或页面没有内容错误。
查看  Yandex 网站管理员工具中的排除页面选项是什么?

如果管理您网站的人错误地阻止了您网站上的页面,您可以检查“覆盖范围”部分下的 Google Search Console 错误并修复它们。 但是,在阻止 IP 或使用 .htaccess 方法时,您可能不会发现问题。 简单的方法是使用 Google Search Console 中的 URL 检查工具、Google PageSpeed Insights 或移动友好的测试工具来测试是否可以抓取实时页面。 当 Googlebot 被阻止访问该页面时,您将看到错误和呈现的空白页面。

最后的话

您可以使用上述方法之一来阻止 Googlebot 和 Bingbot 抓取您的网站。 但是,请确保在阻止您网站的特定页面或部分时避免错误。 特别是,阻止 IP 地址是最危险的操作,它会将您的网页从 Google 搜索中完全删除。 您可能需要重新提交页面并等待重新索引,这可能会导致流量下降,从而导致收入下降。 因此,如果您不确定如何阻止 Googlebot 和 Bingbot,请与您的托管公司联系。 或者,聘请开发人员进行自定义开发工作,例如将机密内容隐藏在授权后面。

类似文章