如何阻止 Google 和 Bing 访问您的网站?
Google 每天至少使用一次 Googlebot 抓取工具来抓取网页并将其编入索引。 通常,抓取基于您在 Google Search Console 中提交的 XML Sitemap。 但是,与普通内容网站相比,新闻网站的抓取频率可能会发生变化并且速度会更快。 同样,Bing 也使用 Bingbot 爬虫来爬取页面。 一方面,网站管理员希望 Google 和 Bing 立即索引他们的页面,另一方面,在某些情况下,您必须阻止这些爬虫来停止爬取整个网站或您网站上的某些页面。 在本文中,我们将解释如何屏蔽 Googlebot 和 Bingbot,屏蔽爬虫后会发生什么以及出现爬取问题的常见原因。
阻止 Googlebot 和 Bingbot
根据您需要的严重程度,有多种方法可以阻止您的网页访问 Google 和 Bing。
1. 使用 Robots.txt 进行拦截
阻止爬虫的最流行和最常见的方法是在 robots.txt 文件中使用指令。 例如,插入以下行将阻止 Google 和 Bing 访问您网站上的页面。
User-agent: Googlebot
Disallow: /your-page-url
User-agent: Bingbot
Disallow: /your-page-url
尽管 Google 和 Bing 遵循 robots.txt 文件,但如果被阻止的页面是从另一篇已编入索引的文章链接的,它就不起作用。 它可以来自您的网站,也可以来自您无法控制的外部网站。
2. 使用 .htaccess 来阻止
虽然不常见,但有些人更喜欢使用 .htaccess 指令来阻止爬虫。 这类似于阻止 Googlebot 和 Bingbot 的 IP 地址,从而阻止对上述页面或目录的完全访问。
RewriteEngine On
RewriteCond %{REQUEST_URI} ^/your-page-url
RewriteRule ^(.*)$ - [F,L]
3. 阻止 Googlebot 和 Bingbot IP 地址
上述方法的问题是您需要具有服务器访问权限才能编辑文件。 此外,您在编辑 robots.txt 和 .htaccess 文件时也可能会出错。 另一种有效的选择是使用阻止 Googlebot 和 Bingbot IP 地址。 谷歌 和 必应 为可用于阻止目的的爬虫提供更新的 IP 地址。 这些 IP 地址采用 JSON 格式,您需要从中提取 IP 范围并使用。 请记住,这些是用于 Googlebot 和 Bingbot 搜索爬虫,而不是用于其他目的,例如 AdSense 爬虫或 Microsoft 广告爬虫。
使用主机面板
如果您有服务器访问权限,则可以使用主机面板中提供的 IP 阻止工具。 例如,HostGator 在其 cPanel 的“安全”部分下提供了一个名为 IP Deny Manager 的“IP Blocker”应用程序。

您可以在所有 cPanel 托管公司(如 Bluehost)中找到类似的工具。 单击 IP Blocker 应用程序并提供 Googlebot 或 Bingbot 的 IP 范围以阻止访问。 例如,您可以使用以下方法之一提供 Googlebot IP 地址:
- 使用 JSON 文件中给出的 CIDR 格式,如 66.249.64.0/27。
- 隐含的 IP 范围,如 66.249.66.0-255
- 通配符范围如 66.249.*.*
- 只需输入 googlebot.com,因为大多数 Goolgebot 用户代理都来自此主机名。

通常,阻止一个或几个 IP 地址就足以阻止访问。 但是,您可以使用通配符或主机名来阻止整个访问。
为 WordPress 使用安全插件
否则,如果您使用的是 WordPress 之类的内容管理系统,那么您有很多安全插件可以阻止来自站点管理员面板的机器人和 IP 地址,而无需访问托管帐户。 例如,SiteGround Security 插件允许您监控网站的实时流量。 您可以根据用户代理名称找到 Googlebot 和 Bingbot IP 地址,并在管理面板中单击几下即可阻止。

这些是有效的方法,尤其是当您想阻止 Google 和 Bing 访问您的整个网站时。
4. 隐藏授权页面
这对于通过设置权限来限制搜索引擎对页面的访问非常有用。 例如,银行和会员网站将个性化内容隐藏在登录授权后面,这样搜索引擎就无法访问这些内容。 基于内容的机密性,您可能需要应用防火墙、阻止用户配置文件等。强烈建议聘请开发人员并在所需目录级别正确设置限制,以便 Google 不会抓取禁止部分。
控制爬行速率或爬行频率
如果您发现 Googlebot 和 Bingbot 对服务器资源的消耗较高,您可以控制抓取速度或抓取频率。 抓取速度是 Googlebot 或 Bingbot 每秒发出的从您的网站获取内容的请求数。 对于高流量网站,控制爬虫程序的爬取速度对于调整服务器资源至关重要。 详细了解如何在 Bing 网站管理员工具中更改 Bingbot 的抓取速度。
但是,Google 会自动使用优化的抓取速度从您的网站抓取内容。 您可以从 Google Search Console 帐户查看此内容。 如果您对当前的抓取频率不满意,请向 Google 提出特殊要求。 新的抓取速度将在接下来的 90 天内有效,并在该期限后重置为优化设置。 详细了解为什么应该控制 Googlebot 抓取速度。
阻止 Googlebot 和 Bingbot 时会发生什么?
当您阻止页面或站点 URL 时,您将分别在 Google Search Console 和 Bing 网站管理员工具中看到不同类型的错误。 以下是您会在 Search Console 帐户中注意到的一些常见错误:
- 当您使用 robots.txt 指令时,URL 被 Robots.txt 阻止。
- 带有类似“提交的 URL 似乎是一个软 404”的消息的软 404。
- 部分抓取或页面没有内容错误。
如果管理您网站的人错误地阻止了您网站上的页面,您可以检查“覆盖范围”部分下的 Google Search Console 错误并修复它们。 但是,在阻止 IP 或使用 .htaccess 方法时,您可能不会发现问题。 简单的方法是使用 Google Search Console 中的 URL 检查工具、Google PageSpeed Insights 或移动友好的测试工具来测试是否可以抓取实时页面。 当 Googlebot 被阻止访问该页面时,您将看到错误和呈现的空白页面。
最后的话
您可以使用上述方法之一来阻止 Googlebot 和 Bingbot 抓取您的网站。 但是,请确保在阻止您网站的特定页面或部分时避免错误。 特别是,阻止 IP 地址是最危险的操作,它会将您的网页从 Google 搜索中完全删除。 您可能需要重新提交页面并等待重新索引,这可能会导致流量下降,从而导致收入下降。 因此,如果您不确定如何阻止 Googlebot 和 Bingbot,请与您的托管公司联系。 或者,聘请开发人员进行自定义开发工作,例如将机密内容隐藏在授权后面。