什么是百度蜘蛛及其工作原理?
百度蜘蛛是一个自动化程序,包含一段百度搜索引擎使用的软件代码。 就像每一个爬虫百度蜘蛛访问互联网上的网页,并根据关键字在数据库中索引它们。 当用户搜索特定关键字时,最相关的页面显示在搜索结果页面的顶部。
百度蜘蛛的用户代理
百度蜘蛛为不同的目的使用不同的用户代理,如下图所示:
产品名称 | 百度用户代理 |
---|---|
移动搜索 | 百度蜘蛛 |
桌面搜索 | 百度蜘蛛 |
商业搜索(广告) | 百度蜘蛛广告 |
百度联盟 | 百度蜘蛛-cpro |
百度收藏 | 百度蜘蛛的最爱 |
图片搜索 | 百度蜘蛛图片 |
新闻搜索 | 百度蜘蛛新闻 |
视频搜索 | 百度蜘蛛视频 |
百度蜘蛛-cpro 和百度蜘蛛-ads 只爬网执行与客户约定的操作,不索引任何页面,不符合标准robots.txt 协议。
百度蜘蛛的爬取控制
百度蜘蛛会自动抓取您的内容以查找您网站中的最新更新。 如果百度蜘蛛的抓取影响了您网站的性能,那么您可以在您的百度站长工具账户中更改抓取速度。
使用 robots.txt 文件将阻止百度蜘蛛抓取您的网页。 如果您将 robots.txt 文件设置为停止访问已编入索引的网页,则可能需要几个月的时间才能从搜索结果中删除已编入索引的页面。
您还可以选择使用以下元标记设置来防止百度搜索结果显示您的网页快照