谷歌搜索引擎是如何工作的?
要知道 1990 年代世界其他地方发生了什么并不容易。 过去二十年的数字化增长是难以想象的,整个世界正被掌握在个人手中。 像谷歌这样的搜索引擎是将信息带到您手中的数字增长的重要原因之一。 每天在 Google 中进行超过数十亿次搜索以查找相关信息。 虽然基本,但了解 Google 搜索引擎的工作原理以在搜索结果中显示最佳网页是很有趣且重要的。
搜索引擎的类型
基本上有三种类型的搜索引擎可用:
- 基于自动爬虫的搜索引擎
- 手动维护的搜索引擎
- 混合类型
我们日常使用的最流行的搜索引擎是混合类型。 他们有自动机器人来查找信息,并使用最少的人工干预来对细节进行分类。 详细了解不同类型的搜索引擎。
谷歌搜索引擎是如何工作的?
谷歌使用自动爬虫从网络获取信息,并使用人工干预对不当行为采取行动。 以下是 Google 在搜索结果中显示网页所遵循的四个基本步骤:
- 通过爬网查找信息
- 索引搜索数据库中的信息
- 计算相关性
- 检索搜索结果
第 1 步 – 爬网
搜索引擎使用一段软件代码从网页中查找可用信息。 软件代码被称为爬虫,机器人,蜘蛛等许多名称。以下是流行搜索引擎使用的一些爬虫。
- Google 用于网络抓取的 Googlebot
- Bing 搜索引擎使用的 Bingbot
- 百度搜索引擎使用的百度蜘蛛
- Yandex搜索引擎使用的Yandexbot
单个搜索引擎可以使用多个爬虫来查找不同类型的信息。 例如,Google 使用以下爬虫来查找网络上的相关网页:
爬虫名称(用户代理) | 目的 |
谷歌机器人 | 用于索引内容以显示在 Google 网络搜索结果中。 这也是用于智能手机的爬虫。 |
谷歌机器人图片 | 用于索引图像以显示在 Google 图像搜索结果中。 |
Googlebot 新闻 | 用于收集新闻提要以显示在 Google 新闻搜索结果中。 |
Googlebot-视频 | 用于抓取网络上的视频以显示在视频搜索结果中。 |
Googlebot-移动 | 用于功能手机上的 Google 移动搜索。 |
媒体合作伙伴-谷歌 | 用于索引网页内容以显示相关的 Google AdSense 广告。 |
爬虫如何工作?
搜索引擎爬虫在网络上查找每个网页并找到页面上的超链接。 按照元标记的指示,每个链接都被关注或忽略(nofollow)。 有一些方法可以通过 .htaccess、robots.txt 和元标记来控制爬虫。 您可以在另一篇文章中阅读更多关于爬虫的搜索引擎优化的信息。
爬虫收集的详细信息被发送到谷歌服务器进行分类和索引。
爬虫使用基于先前信息的网页列表,并使用站点所有者提交的 XML Sitemap。 XML Sitemap 通过 Google Search Console 提交给 Google,其他搜索引擎也有自己的网站管理员工具帐户。 与以前不同,爬虫在理解内容含义、验证内容更改和评估链接方面更加智能。
第 2 步 – 对爬取的信息进行分类和索引
每天都有新页面发布和旧域到期。 因此爬虫需要获取最新且正确的信息并发送到服务器。 谷歌服务器对接收到的信息进行分类并将其编入索引以便于参考。
想象一个图书馆,其书架按部分分类。 您可以通过查看相关的书架轻松找到一本书。 谷歌服务器根据网页上的关键字对信息进行类似的分类。 这就是每个网页上的关键字很重要的原因,因为页面将被相应地分类。
谷歌拥有复杂的索引系统来检查网页内容的多个因素。 例如,时间相关内容根据相关性而非关键字显示在搜索结果的顶部。 图像和视频也分别用于图像和视频搜索。
如果您是网站所有者,请确保该页面是为具有可读内容的人类用户编写的。 一般来说,与图像、视频和 Flash 内容相比,搜索引擎更容易解释基于文本的内容。
第三步——计算相关性
当您搜索查询时,搜索引擎需要从数十亿索引网页中寻找相关结果。 借助高度智能的爬取和索引系统,Google 可以轻松找到与搜索关键字相关的页面。 简而言之,搜索查询与网页内容之间的相关性决定了检索结果。
另一方面,谷歌还使用相关性来索引具有正确上下文的内容。
- 当网页上有“华盛顿”一词时,无论是用作地名还是人名,Google 都可以轻松解读上下文。
- 具有重点利基的网站往往比范围更广的网站表现更好。
- 谷歌了解品牌名称。 例如,当您搜索“webnots”时,您将获得“webnots.com”作为顶部结果。 尽管 webnots 没有字典含义,但经过一段时间 Google 会理解它是一个品牌名称。
Step4 – 检索结果
一旦获取了相关的页面列表,最后一步是以适当的顺序检索结果。 通常最受欢迎的页面列在顶部,并且受欢迎程度是根据页面的质量入站链接计算的。 这个概念很简单,热门页面被更多人引用,并且在外部网站上具有很高的引用率。
如果链接是合法的,则基于链接流行度的列表非常有效。 不幸的是,这种排名概念在搜索引擎营销领域引发了一场革命,每个网站所有者都开始建立人工链接。 这包括将网站的 URL 留在评论部分、论坛发帖和热门网站上的所有可能位置。 谷歌在这个链接流行度概念上做了很多改进,比如不考虑评论部分的链接。 对于具有人工链接并试图以任何方式操纵链接流行度的网站,也会受到重罚。
尽管搜索结果会在几秒钟内显示出来,但有大量的数学算法可以计算网页在搜索结果中的位置。 这确保网站所有者向访问者提供更有用和用户友好的信息。