Google 无法正确抓取您网站的 8 个原因?

发布文章后,立即在 Google 搜索结果中显示它们是所有网站所有者的主要目标之一。 有些人甚至尝试使用 Google Search Console 中的 URL Inspection 工具来提交手动抓取请求。 但是,Google 不保证网站的内容抓取和索引。 尽管您无法通过 Google 改变这一事实,但实际上还有许多其他因素会影响 Google 对您文章的抓取。 如果您正在努力显示您的内容,这里有一些您需要检查的基本内容,以允许搜索引擎机器人正确地抓取您的网站。

为什么即时抓取很重要?

当您发布教程或操作方法时,立即在 Google 中显示文章对您来说可能并不重要。 但是,立即抓取是有意义的,尤其是当内容不会保持太长时间相关时。 例如,针对新年等特殊场合的产品促销活动仅在几天内有效。 您需要确保内容在那个时期能够触及您的受众。 这与每秒发布数百万篇文章的所有新闻和媒体机构的情况相同。

要检查的爬行问题类型

您可能会遇到几种基本类型的爬网问题:

  • Googlebot 根本不会抓取您的内容
  • 内容在搜索结果中显示的时间太长
  • 内容以不适当的格式显示

您可以进行简单的 Google 搜索或检查 Search Console 帐户,以发现您的网站中存在这些问题。 如果您发现这些问题之一,请查明是否是这些问题的原因。

1. 使用优化的 XML 站点地图

首先确保您已经在 Google Search Console 中提交了 XML Sitemap。 请记住,您应该已经验证了网站所有权才能使用 Search Console 帐户的功能。 这是 Googlebot 开始抓取过程的基本信息,您可以根据提交的站点地图查看最后读取日期。 这将帮助您确定 Googlebot 是否正在抓取您的内容或是否有任何问题,您可以在相同的站点地图或覆盖范围部分下检查这些问题。

一些站点地图未读再见 Googlebot
一些站点地图未读再见 Googlebot

许多用户认为自动生成的 XML 站点地图足以让 Google 抓取您的内容。 但是,最好为您的站点提交经过适当验证的站点地图,其中包含所有必需的信息。 让我们以 Weebly 和 WordPress 平台的站点地图为例。 Weebly 和 WordPress 都会自动为您生成 XML 站点地图,尽管您可以借助 Yoast SEO 或 Rank Math 等插件为 WordPress 自定义站点地图索引。

Weebly 站点地图示例 – Weebly 站点地图显示 URL 和最后修改日期。

Weebly XML 站点地图
Weebly XML 站点地图

Yoast SEO 生成的 WordPress 站点地图示例 – WordPress 站点地图显示 URL、最后修改日期、图像数量,最重要的是以站点地图索引格式显示。

XML站点地图索引
XML站点地图索引

索引显示您网站的清晰结构,每个单独的 Sitemap 包含相应的文章,例如帖子 Sitemap 仅包含与时间相关的帖子,不与静态页面混合。

WordPress 中的个人帖子站点地图
WordPress 中的个人帖子站点地图

尽管这两个平台都没有在 Sitemap 中使用优先级,但 WordPress Sitemap 清楚地告诉 Google 文章是帖子还是页面,并将每个 URL 链接到内容。 Googlebot 还可以获得您网站上可用的不同帖子类型的详细信息,以更好地了解结构。

此外,检查自动生成的站点地图是否有 301 和 404 页面,然后修复它们。 确保站点地图干净后,转到 Google Search Console 并重新提交。

2.检查被阻止的内容

有时您或您的开发人员可能不小心阻止了搜索引擎抓取工具。 例如,您可能在开发站点中设置了阻止规则,并在没有注意到的情况下将更改移至实时站点。 尽管有多种方法可以阻止内容,但最流行的方法是在 robots.txt 文件中留下禁止指令。 这可以阻止 Googlebot 和其他搜索引擎机器人抓取您网站的某些部分。

被 Robots.txt 文件阻止
被 Robots.txt 文件阻止

使用 Google 的 Robots.txt 测试工具检查您网站的 robots.txt 文件并删除被阻止的条目,然后在 Google Search Console 中重新提交 URL。 请注意,可能需要数周时间才能再次抓取网页并开始显示在搜索结果中。

Robots.txt 文件测试器
Robots.txt 文件测试器

此外,您可能错误地阻止了 Googlebot 的 IP 地址,从而阻止了抓取。 检查您的托管帐户 IP 管理器工具和您网站的控制面板,并删除属于 Googlebot 的任何被阻止的 IP 地址。 最后,检查页面级别的机器人元标记,并确认该页面没有阻止元属性,如 nofollow 和 noindex。

笔记: 大多数内容管理系统和网站构建工具还允许您在创建新网站时阻止搜索引擎机器人。 确保在向 Google 提交 XML 站点地图时禁用此功能。

在 WordPress 中禁用搜索引擎
在 WordPress 中禁用搜索引擎

3.修复缺失的结构化数据

使用结构化数据有助于 Googlebot 了解您网页的内容并在搜索结果中显示相关详细信息。 例如,您想为您的评论文章显示星级而不是纯文本。 虽然这不会像 robots.txt 文件条目那样阻止 Googlebot,但您可能会看到意想不到的结果。

在 Google Search Console 中查看代码段错误
在 Google Search Console 中查看代码段错误

您可以按照 Google 的建议使用 JSON-LD 添加结构化数据标记。 确保使用测试您网站的结构化数据标记 架构标记测试工具 并解决所有问题。 在那之后使用 丰富的结果测试工具 了解在搜索结果中显示时 Google 如何看待您的结构化数据。

Google Rich Results 测试工具
Google Rich Results 测试工具

这将帮助您为您使用的模式类型添加所有强制信息,并在搜索结果中显示有吸引力的内容。 虽然这看起来很技术性,但像 WordPress 这样的内容管理系统在插件的帮助下使这变得很容易。

4.合并重复的网页

较小的网站易于维护,一般不会出现重复内容问题。 但是,对于大型网站,尤其是电商网站来说,重复网站是个大问题。 电子商务网站可以为产品的每个变体使用一个专用网页。 这意味着产品变体可以几乎相同。 发生这种情况时,Google 会自动将其中一个页面作为您的主要页面,并忽略所有其他页面,认为它们是重复的。

Google 选择不同的规范 URL
Google 选择不同的规范 URL

当具有低价变体的页面出现在搜索结果中而不是高销售转化页面时,这可能会产生问题。

  • 首先通过合并页面来避免重复内容,并删除低价值的内容。 确保设置 301 重定向,以便搜索引擎机器人能够理解要在搜索结果中显示的正确页面。
  • 如果在您的网站中不可避免地使用重复网页,则首选使用规范标签来标识父页面。
  • 最后,您可以在单个产品页面上使用价格和产品变体,而不是创建多个页面。 使用 WordPress 时,您可以使用 WooCommerce 等插件轻松完成此操作。

5.凌乱的网站结构

一般来说,URL 不是在 Google 中显示内容的排名因素。 但是,拥有定义明确且简洁的 URL 结构将有助于改善用户体验,从而提高搜索结果的排名。 从抓取的角度来看,考虑使用简单的页面 URL 并使用面包屑来指示搜索引擎当前页面在您网站上的确切位置。 每个网页都可以直接放在主域下,以保持 URL 结构简单。

这是什么 谷歌官方表示 使用复杂的 URL:

过于复杂的 URL,尤其是那些包含多个参数的 URL,可能会创建不必要的大量指向您网站上相同或相似内容的 URL,从而给抓取工具带来问题。 因此,Googlebot 可能会消耗比必要更多的带宽,或者可能无法完全索引您网站上的所有内容。

谷歌

您可以避免在 URL 中出现以下内容,以避免抓取相关问题:

  • 如果您的网页 URL 仍然是使用随机字符自动生成的,那么最好解决这个问题。 还要避免使用动态参数,以免重复爬取。
  • 使用 robots.txt 文件指令阻止内部搜索结果和其他带有参数的重复 URL。
  • 避免使用下划线,而是使用连字符。
  • 将 nofollow 属性添加到您不希望爬虫跟踪链接的超链接并修复损坏的链接以避免 404 错误。
  长时间休息后恢复博客的 5 种方法

不遵循准则将导致 Googlebot 无法抓取您的网址,并且在 Search Console 中检查网址时,您会看到诸如“Google 未知网址”之类的错误。

Google 未知网址
Google 未知网址

6.太多的JavaScript代码

渲染阻塞 JavaScript 是您在使用 Google PageSpeed Insights 工具测量速度得分时可以看到的最常见问题之一。 当您在页面上使用大量 JavaScript 时,请确保它不会阻止爬虫加载页面内容。 一些网站使用大量的 JavaScript 代码来实现滑块、投资组合过滤和展示动态图表。 问题是在 JavaScript 完全加载之前,页面上的其余文本内容不会加载。 这可能会导致 Googlebot 无法获取您网页的全部内容。

使用大量 JavaScript 测试您的网页,使用 Google Search Console 中的 URL Inspection 工具来查看适用于智能手机的 Googlebot 如何抓取您的网站。

脚本和图像被阻止
脚本和图像被阻止

如果您看到部分抓取或内容为空,您可能需要检查以下内容:

  • 检查您的缓存解决方案和 CDN 是否正常工作以无阻塞地交付完整内容。
  • 将页面上的 JavaScript 文件移动到页脚部分,以便其他内容可以更快地加载。
  • 您需要使用大量 JavaScript(如 jQuery)来创建交互式网页的日子已经一去不复返了。 查找页面上基于 JavaScript 的元素并将其替换为静态 HTML 或 CSS。

JavaScript 的另一个问题是使用来自第三方网站(如 Google AdSense)的代码。 不幸的是,您无法优化第三方内容,选择要么避免使用它们,要么延迟加载它们,直到有用户交互。 延迟脚本不会将它们显示给像 Googlebot 这样的爬虫,机器人也不会在页面上看到相应的内容。 这对于广告可能效果很好,但对于与文本内容相关的功能,最好使用 HTML 或 CSS 而不是 JavaScript。

7. 大而未优化的图像

图片爬取问题有两种可能。 一个是在 Google Image 搜索结果中看不到图像,另一个是图像对包含文本内容的普通页面造成问题。

  • 如果你有投资组合、摄影或艺术品等网站,在搜索结果中显示单个图像很重要。 此处最好的选择是使用单独的图像站点地图,以便 Googlebot 可以单独抓取它们。
  • 当您的页面标题部分有一个未经优化的大图片时,它可能会给 Googlebot 带来问题。 您会在 Search Console 中看到提交的页面没有内容之类的错误,因为 Googlebot 无法呈现页面上的剩余文本内容。 这里的解决方案是使用更小、优化的图像,并以更轻的格式(如 WebP)为它们提供服务。

请记住,Google 使用 Google-Image 作为抓取图片的抓取工具。 因此,在测试图像时,请确保使用 Google-Image 作为机器人以获得正确的结果。

8. 缓慢的托管服务器

您可能想知道服务器的速度如何影响 Googlebot 的抓取。 当您在 XML 站点地图中有大量 URL,而由于服务器资源有限,Googlebot 无法抓取所有这些时,就会出现问题。 如上所述,WordPress 中的 Yoast SEO 等插件会创建单独的站点地图,每个站点地图包含 1000 个 URL。 当您尝试在浏览器中打开站点地图时,大多数共享托管服务器都会崩溃。 如果是这种情况,您就不能指望 Googlebot 抓取站点地图。

  • 尝试将每个 Sitemap 拆分为 200 个或更少的 URL。
  • 检查您的服务器硬件和带宽以优化性能。 或者,您可以升级到 VPS 或专用主机以提高整体性能。 对于 WordPress,您可以选择 SiteGround、Kinsta 或 WPEngine 等托管 WordPress 托管公司。

请记住,移动设备中的页面加载速度很重要,因为 Google 默认使用智能手机爬虫来抓取您的页面并为其编制索引。 移动设备上的缓慢加载页面可能会给爬虫抓取全部内容带来问题。 因此,请确保拥有针对移动速度进行了优化的响应式网站。 除了拥有强大的托管服务器外,请确保缓存您的内容,使用 CDN 和目标来传递 Core Web Vitals。 这些因素有助于使您的网页在 Google 搜索结果中排名靠前。

最后的话

上述所有要点都是网站所有者监控和修复其网站上与爬行相关的问题的指南。 请记住,对于移动优先索引,谷歌默认使用智能手机抓取工具来抓取和索引您的内容。 因此,请确保拥有一个移动优化的网站,在折叠区域上方快速加载文本内容,并避免在标题上使用大量的 JavaScript 和图像。 这些因素连同正确的 XML 站点地图和干净的 arobots.txt 文件将有助于爬虫立即找到您的内容并为其编制索引。

类似文章