搜索引擎的 XML 站点地图、结构和格式指南

什么是站点地图?

站点地图是您网站的导航指南,可告知用户和搜索引擎您的整个网站的结构。 当网站规模扩大且页面数量增加时,跟踪更改是一项艰巨的任务。 与整个站点相比,站点地图有助于了解站点的复杂链接结构以及任何单个页面的重要性。

涵盖的主题

在本文中,我们将解释 XML Sitemap 的以下主题:

  1. 站点地图的类型
  2. 如何创建 XML 站点地图?
  3. XML站点地图的结构
  4. 向搜索引擎提交站点地图
  5. 搜索引擎的不同格式的站点地图

1. 站点地图的类型

通常Sitemap分为以下两类:

  • 用户站点地图
  • 搜索引擎的站点地图

1.1。 用户站点地图

这是您网站的一个简单 HTML 网页部分,其中包含您网站中所有页面的链接列表。 HTML Sitemap 的目的是向人类用户解释您网站的完整结构。 这有助于用户了解网站的全部内容并轻松定位特定内容。

以下是在您的站点中使用 HTML 站点地图时要记住的要点:

  • 强烈建议对您的内容进行分类并在相关部分显示链接。
  • 避免将站点地图显示为您网站的简单 URL 列表,这不会帮助用户轻松导航。
  • 生成您自己的 HTML 站点地图,并避免使用提供纯链接列表的免费在线 HTML 站点地图生成器。
  • 每当添加或删除页面时更新您的站点地图。
  • 搜索引擎为具有可见 HTML 站点地图的站点提供了重要性。

一个简单的 HTML Sitemap 示例如下图所示:

用于用户导航的 HTML 站点地图
用于用户导航的 HTML 站点地图

1.2. 搜索引擎的站点地图

网站所有者的主要任务之一是准备站点地图并提交给各种搜索引擎进行索引。 搜索引擎的站点地图通常使用 XML 格式,其目的与 HTML 站点地图相同,不同之处在于 XML 站点地图有助于搜索引擎理解站点结构,而 HTML 站点地图是为人类用户设计的。

在 XML Sitemap 的帮助下,搜索引擎机器人可以轻松地抓取和索引您网站中的新页面和修改过的页面。 您还可以指示与您网站中的其他页面相比,要考虑编入索引的页面的优先级。 XML Sitemap 不会显示在用户的站点导航中,但可以在带有 .xml 页面的 Web 浏览器中看到。 以下是 XML 站点地图的示例:

用于搜索引擎导航的 XML 站点地图
用于搜索引擎导航的 XML 站点地图

2. 如何创建 XML 站点地图?

大多数托管服务提供商都为网站提供自动站点地图生成,这确实是一个不错的选择。 每当页面内容发生变化时,这将自动更新。 如果您的托管服务提供商不提供自动站点地图生成选项,请使用在线 XML 站点地图生成器工具生成您自己的站点地图。

您还可以使用插件生成动态站点地图文件,当新 URL 添加到您的站点时,该文件会自动更新。 例如,当您使用 WordPress 作为内容管理系统时,可以免费使用 Yoast 等流行的 SEO 插件。

2.1。 在哪里上传站点地图文件?

当您手动创建站点地图时,您应该将文件上传到站点的根目录中。 如果您想将站点地图文件上传到服务器上的任何其他目录,请使用 robots.txt 指令通知搜索引擎您的站点地图的确切位置。

手动文件上传的问题是每当新的 URL 被添加到您的站点时,都会不断更新文件。 因此,每当您在网站上发布新文章时,请确保替换旧的站点地图并上传最新的站点地图。

3. XML站点地图结构

XML 模式是 XML 中使用的协议 站点地图 这是最常用的站点地图之一 搜索引擎提交. 创建 XML 站点地图应遵循以下准则:

  • XML 站点地图应使用 UTF-8 格式编码。
  • 站点地图中的所有 URL 都应来自单个域,例如 webnots.com 或 www.webnots.com。
  • 仅使用英语并避免在站点地图文件中使用其他语言字符。
  • 所有内容都应进行实体转义,这意味着所有特殊字符都应转换为转义码,如下所示:
特殊的角色 转义码
与号 (&) &
单引号 (‘) '
双引号 (“) & quot;
大于 (>) >
少于 ( <

3.1。 XML 站点地图示例

下面是一个带有单个 URL 的 XML 站点地图示例。 标签 之间的内容可以在 标记内重复每个带有该页面 URL 的附加链接。

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.yoursitename.com/</loc>
<lastmod>2014-04-20</lastmod>
<changefreq>Daily</changefreq>
<priority>0.6</priority>
</url>
</urlset>

您还可以将 RSS 或 Atom 提要提交给您博客的搜索引擎,而不是 XML 站点地图。

3.2. XML 标签解释

XML Sitemap 包含标签,其中 标签用作容器标签,以使用 标签提及每个 URL。 XML Sitemap 中使用的所有强制和可选标签详细解释如下:

标签 描述 必需/可选
使用 UTF-8 编码的 XML 文件 选修的
定义的整个链接集合的起始标记。 必需的
URL 的起始标记。 必需的
http://www.example.com/index.html 具体的页面链接。 必需的
2014-04-05T11:29:40-07:00 上次修改时间。 选修的
日常 URL 的修改频率。 选修的
0.8 与站点的其他 URL 相比,URL 的相对重要性。 范围在 0.0 到 1.0 之间。 选修的
URL 的结束标记。 必需的
定义的整个链接集合的结束标记。 必需的
3.2.1。 地点:

Location 表示页面的 URL,应以 http:// 开头,并且不应超过 2048 个字符。 一些像百度这样的搜索引擎只接受 256 字节的最大长度。

3.2.2. 最后修改:

这表示站点地图文件的最后修改日期。 时间戳可以是以下任何一种格式:

格式 描述 例子
YYYY-MM-DD 年、月、日 2014-04-10
YYYY-MM 年月 2014-04
年年 2014
YYYY-MM-DDThh:mmTZD 完整的日期加上小时和分钟 2014-04-10T23:10+03:30
YYYY-MM-DDThh:mm:ssTZD 完整的日期加上小时、分钟和秒 2014-04-10T09:10:40+05:00
YYYY-MM-DDThh:mm:ss.sTZD 完整的日期加上小时、分钟、秒和秒的小数部分 2014-04-10T09:10:40.34+04:00
  提高 WordPress 网站流量、排名和参与度的 10 种方法

在上表中:

  • YYYY 是一年
  • MM 是两位数的月份(01=一月)
  • DD 是两位数的日期(从 01 到 31)
  • hh 是小时(00 到 23,无需提及上午/下午)
  • mm 是分钟(00 到 59)
  • ss 是秒(00 到 59)
  • s 指秒的小数部分
  • TZD 是时区指示符(Z 或 +hh:mm 或 -hh:mm)。 以 Z 表示 UTC(协调世界时)格式,其他时区以 hh:mm 显示在 UTC 之后或之前。 例如,2014-04-20T22:10:40-05:00 对应于美国东部标准时间 2014 年 4 月 20 日下午 22:10:40。
3.2.3。 变更频率:

这表明该网页的更改频率。 搜索引擎使用它来了解该页面的更改频率,可接受的值为 – 始终、从不、每小时、每天、每周、每月和每年。

属性“always”表示每次加载网页时都会更改,“never”表示已归档的 URL。

3.2.4。 优先事项:

这表示 URL 相对于您网站中所有其他页面的优先级。 取值范围为 0.0 到 1.0,默认值为 0.5。 使用这个标签来指示对搜索引擎比较重要的页面。

4. 向搜索引擎提交站点地图

网站管理员创建站点地图并将其提交给 Google、Bing、百度和 Yandex 等搜索引擎是网站管理员的一项重要要求。 站点地图可以匿名提交,也可以通过基于搜索引擎的网站管理员工具帐户提交。 这有助于搜索引擎的爬虫了解网站上的所有页面并相应地编制索引。 您还可以使用站点地图向搜索引擎提供有关您网站的其他信息,例如上次更新日期、更改频率和页面的相对优先级。

以下是向搜索引擎提交站点地图的要求:

  • 您需要有一个网站管理员工具帐户才能将您的站点地图提交给搜索引擎。 虽然一些搜索引擎(如 Bing)提供匿名站点地图提交,但我们建议使用网站管理员工具来跟踪您网站的搜索性能。
  • 您必须先在网站管理员工具帐户中验证您的网站,然后才能提交站点地图。
  • 您还可以将博客的 RSS 提要作为站点地图提交。 如果您拥有博客,建议同时提交 RSS 提要和 XML 站点地图。
  • 搜索引擎每天都会根据站点地图中的信息抓取您的网站,并寻找新的和修改过的内容。
  • 站点地图中的错误和警告会显示在您的网站站长工具帐户中,以供进一步操作。

请注意以下事项:

  • 将站点地图提交给搜索引擎并不能保证您的页面被编入索引,也不能保证在搜索结果中的高排名。 这只是搜索引擎机器人了解您的网站结构的指南。
  • 首次提交站点地图后,搜索引擎最多可能需要一天时间才能抓取您的站点地图的内容。
  • 确保您的站点地图仅包含英文字符和数字。 搜索引擎可能不接受具有其他语言代码的站点地图。

5. 搜索引擎可接受的站点地图格式

搜索引擎接受以下站点地图格式之一:

  • 每行包含一个 URL 的文本文件
  • XML 站点地图
  • 站点地图索引 – 包含多个 XML 站点地图或文本文件

XML Sitemap 是最常用的格式,通常可通过 URL“yoursite.com/sitemap.xml”访问。

5.1。 文本文件格式

具有 .txt 扩展名文件类型的文本文件是创建站点地图的简单方法,尤其适用于页面较少的站点。 您可以借助记事本等简单的文本编辑器自行创建文本站点地图。
以下是创建文本站点地图时的一般准则:

  • 每行输入一个 URL。
  • URL 不能包含换行符或任何其他信息。
  • 您必须编写完整的 URL,包括 http。[/wn_list]
站点地图文本文件
站点地图文本文件

除了这些一般准则之外,每个搜索引擎都可以强制执行以下准则:

  • 每个文件的最大 URL 数不应超过 50,000。 如果您的站点包含超过 50,000 个 URL,则将该列表分成多个文本文件。
  • 文本文件大小应小于 10MB(10,485,760 字节)。
  • 文本文件必须使用 UTF-8 编码; 确保以 UTF-8 格式保存您的文本文件。
以 UTF-8 格式保存文件
以 UTF-8 格式保存文件

5.2. XML 格式

XML 站点地图是被广泛接受的站点地图格式,因为它易于使用并且可以为搜索引擎爬虫提供附加信息。 文件格式包含上面第 3.2 节中解释的简单标签。 单击此处查看该站点的简单 XML 站点地图。

5.3. 站点地图索引格式

为了提交大型站点地图,可以在站点地图索引文件中列出 URL,然后将索引文件提交给搜索引擎。 Sitemap 索引文件的格式如下:

标签 描述 必需/可选
使用 UTF-8 编码的 XML 文件 选修的
站点地图索引的起始标记。 必需的
站点地图的起始标记。 必需的
http://www.example.com/sitemap.xml 站点地图页面或 Atom 提要或 RSS 提要或文本文件的特定链接。 必需的
2014-04-05T11:29:40-07:00 上次修改时间。 选修的
日常 URL 的修改频率。 选修的
站点地图的结束标记。 必需的
站点地图索引的结束标记。 必需的

如果您有多个站点地图,请添加多个带有标签 的站点地图。 单击此处查看该站点的站点地图索引。

笔记: 也可以提交博客的 RSS、mRSS 或 Atom 1.0 提要,而不是站点地图。 但问题是提要仅包含最新的 URL 而不是全部,因此对旧 URL 的内容修改不属于提要的一部分,不会立即被搜索引擎抓取。

类似文章