2008-01-15 10:38浏览: 1158 次

什么是robots.txt

　这是伟大的时候，搜索引擎经常访问你的站点和索引你的内容，但往往在有些情况下，当索引部分，你的线上内容是不是你想要的。举例来说，如果你有两个版本的网页(一个用于观景，在浏览器和一个用于打印) ，你都宁愿有印刷版排除在爬行，否则，你就有可能被强加的重复内容的刑罚。另外，如果你恰好有机密资料对你的站点说，你不想让世界看到的，你也会喜欢，搜索引擎不要索引这些页面(虽然在这种情况下，唯一可靠的途径不是索引敏感的数据，是保持离线对一个单独的机器) 。此外，如果您想节省一些带宽所不计形象，样式和Javascript从索引中，你也需要有一个方式告诉蜘蛛，远离了这些项目。

　　其中一个方法告诉搜索引擎哪些文件和文件夹上你的网站，以避免是与使用robot MetaTags。但由于并非所有的搜索引擎阅读MetaTags ，机robot MetaTags可以简单地被忽视。更好的方式来告知搜索引擎对您将是使用robots.txt文件。

　　什么是robots.txt的?

　　robots.txt的是一个文字(而不是HTML )的档案，你把你的网站告诉搜索机器人哪些页面，你想他们不要访问。robots.txt的绝不是强制性的搜索引擎，但一般来说，搜索引擎服从什么却要求他们不要做。这是必须澄清的robots.txt是没有办法阻止搜索引擎从抓取你的网站(即它不是一个防火墙，或者说是一种密码保护)和事实，即你把robots.txt文件是一样的东西再一次说明： "拜托，不要输入" ，对一个没有上锁的门-例如，你不能防止窃贼进入，但好人不会公开进行盘查，并进入。这就是为什么我们说，如果你真的有特殊教育需要的敏感数据，这是太天真的依赖robots.txt的，以保护它被索引并显示在搜索结果中。

　　所在地的robots.txt是非常重要的。

　　它必须在主目录中，因为否则用户代理(搜索引擎)将无法找到它-他们不搜寻整个网站一档名为r obots.txt的。相反，他们首先在主目录(即! ) ，如果他们不觉得有，他们只是假设这个站点没有一个robots.txt文件，所以他们指数千方百计寻找前进的道路。所以，如果你不把robots.txt的，在合适的地点，并不感到惊讶，搜索引擎索引你的整个网站。

　　概念和结构的robots.txt已发展了10多年前，如果你有兴趣更多地了解它，请访问!或者你可以直去，以标准为机器人排斥，因为在这篇文章中我们将只处理最重要的方面robots.txt文件。今后我们将继续进行结构robots.txt文件。

　　robots.txt文件结构

　　一个robots.txt的结构，是相当简单的(勉强灵活) -它是一个永无止境的名单上的用户代理及禁止的文件和目录。基本上，语法如下：

　　User-agent:

　　Disallow:

　　“ User-agent” ，是搜索引擎的抓取工具，并不准：列出的文件和目录被排除索引。此外，“user-agent:” and “disallow:”： "参赛作品，你可以包括评论线-只是把编号登录在一开始的路线：

　　#所有用户代理是不准看/ Temp目录。

　　User-agent: *

　　Disallow: /temp/

　　e陷阱的robots.txt文件

　　当你开始做复杂的文件-即你决定，让不同的用户代理商接触不同目录-问题就可以启动，如果你不特别注意陷阱的r o bots.txt文件。 Common mistakes include typos and contradicting directives.常见的错误包括错别字和矛盾的指令。错别字都拼错用户代理，目录，失踪冒号后，用户Agent和批驳，错别字等，可能比较难找到，但在某些情况下，验证工具的帮助。

　　更严重的问题在于逻辑错误。例如：

　　User-agent: *

　　Disallow: /temp/

　　User-agent: Googlebot

　　Disallow: /images/

　　Disallow: /temp/

　　Disallow: /cgi-bin/

　　上面的例子是从一个robots.txt的，让所有代理商，以获得网站上的一切，除了/ Temp目录。截至到这里，这是不错，但后来也有另一种记录，规定更严格的条件，当googlebot开始读robots.txt的，它会看到所有用户代理(包括googlebot自己) ，让所有文件夹中除了/temp/ 。这还不够，为googlebot知道，所以它不会读文件除了/images/ and /cgi-bin/ ，其中，你认为你告诉它不要触摸。你看，结构的robots.txt文件很简单，但仍犯了严重错误，可以很容易取得。

　　工具，以生成和验证robots.txt文件

　　考虑到简单语法的robots.txt文件，您也可以随时阅读，它看到的，如果一切是好，但它是非常容易使用一个校验器，像这样： ! checker.phtml 。这些工具的报道常见错误像失踪斜线或冒号，如果不妥协，发现你的努力。例如，如果你输入：

　　User agent: *

　　Disallow: /temp/

　　这是不对的，因为"user"和"agent"和语法是不正确。

　　在这种情况下，当你有一个复杂的robots.txt文件-即你给不同的指令，以不同的用户代理或你有一个长长的清单目录和子目录中排除，以书面文件手动可以是一个真正的痛苦。不过，你不用担心-有工具，将产生文件给你。更甚的是，有视觉工具，让点，并选择其中的文件和文件夹都被排除在外。但即使你不觉得自己如同你买了图形化工具的robots.txt一代，有在线工具，以协助你。举例来说，服务器端的机器人发电机提供了一个下拉列表中的用户代理和一个文本框，为您列出档案，你不想索引。坦白说，这是没有太大的帮助，除非你要设定具体的规则，为不同的搜索引擎，因为在任何情况下，它是由您键入名单目录但更胜于无。

　　作者网站 !

上一篇：单页面SEO优化到底是不是海市蜃楼
上一篇：网站优化必备的3个条件

热门排行