SEO入门robotstxt的终极指南

robots.txt文件是告诉搜索引擎在您网站上的页面哪些可以进入哪些不能进入的主要方式之一。所有主要的搜索引擎都支持其提供的基本功能。今天我们的文章将涵盖了robots.txt在网站上使用的所有方式。尽管看起来很简单,但您在网站上犯的任何robots.txt错误都会严重损害您的网站,因此请务必先理解本文再进行实践。

什么是robots.txt文件?该robots.txt文件做什么?我应该在哪里存放robots.txt文件?使用robots.txt的利与弊管理抓取预算缺点:不从搜索结果中删除页面缺点:不传播链接价值robots.txt语法Allow指令host指令crawl-delay指令sitemapXMLSitemaps的指令搜索引擎蜘蛛最常见的User-agentUser-agent指令Disallow指令如何使用通配符/正则表达式非标准robots.txt搜寻指令什么是robots.txt文件?

抓取指令

robots.txt文件是一个由搜索引擎蜘蛛读取并遵循严格的语法内容所组成的文本文件。文件的语法很严格,仅因为它必须是计算机可读的。这意味着这里没有错误的余地。

robots.txt文件也称为“机器人排除协议”,是早期搜索引擎蜘蛛开发人员达成共识的结果。它不是任何标准组织制定的官方标准,但是所有主要的搜索引擎都遵守它。

robots.txt文件做什么?

搜索引擎通过抓取页面,跟随链接从站点A到站点B再到站点C的方式对网页进行索引。在搜索引擎搜索遇到新网站时,它将打开该网站的robots.txt文件,该文件告诉搜索引擎允许该站点上的哪些URL进行索引。

搜索引擎通常会缓存robots.txt的内容,但通常会每天刷新几次,因此更改会很快反映出来。

我应该在哪里存放robots.txt文件?

robots.txt文件应始终位于域的根目录。因此,robots.txt文件应位于域名/robots.txt。

robots.txt编写的内容也很重要。内容区分大小写,因此请正确编写,否则将无法使用。

使用robots.txt的利与弊

管理抓取预算

众所周知,搜索蜘蛛会以预定的“准则”进入网站,以获取要爬取的页面数(根据网站的权限/大小/声誉得出的抓取页面数),SEO将此称为抓取预算。这就意味着,如果您阻止网站的某些部分的抓取,搜索蜘蛛就会抓取其他部分来补充页面数。

一般来说,阻止搜索引擎抓取您网站有问题的部分是非常有益,特别是在必须进行大量SEO清理的网站上。整理完所有内容后,您就可以解除阻止。

有关阻止查询参数的说明

特别重要的一种robots.txt应用是:您的站点使用大量参数进行查询。假设您有10个不同的查询参数,每个参数都可能有不同的值而生成不同的URL,这将导致数百甚至数千个毫无意义的URL。阻止所有查询参数页面的抓取将有助于确保搜索引擎仅收录您网站的主要URL,而不会陷入一个巨大陷阱。

此行阻止您网站上包含查询字符串的所有URL:

Disallow:/*?*

缺点:不从搜索结果中删除页面

即使您可以使用该robots.txt文件告诉搜索蜘蛛不能在网站上访问的位置,也不能使用它告诉搜索引擎哪些URL不在搜索结果中显示。换句话说,阻止它不会阻止它被索引。搜索引擎仍然会在搜索结果中显示,但不显示其内容。

如果要阻止页面显示在搜索结果中,则需要使用metarobotsnoindex标签。这意味着,为了找到noindex标签,搜索引擎必须能够访问该页面,因此请不要通过robots.txt阻止搜索蜘蛛访问该页面。

Noindex指令

过去可以在robots.txt中添加“noindex”指令,从搜索结果中删除网址,并避免出现这些“碎片”。如今已经不再支持,请不要使用。

缺点:不传播链接价值

如果搜索引擎无法抓取页面,则无法在该页面上的链接之间散布链接值。当页面通过robots.txt被阻止时,这是死路一条。任何可能流到(并通过)该页面的链接值都会丢失。

robots.txt句法

该User-agent指令

每个指令块的第一位是User-agent,它标识特定的蜘蛛。User-agent字段与该特定Spider(通常更长)的User-agent匹配,因此,例如,来自百度的最常见的Spider具有以下User-agent:

Mozilla/5.0(


转载请注明:http://www.aierlanlan.com/rzgz/3126.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了