了解robots.txt文件

《了解robots.txt文件》由珠海SEO骆辉校seo博客于2016年07月02日整理发布

一个robots.txt 文件是在您的网站的根目录,表明你的网站,你不希望被搜索引擎爬虫访问的部分文件。该文件使用机器人排除标准,这是一小部分,可以用于指示段访问您的网站的命令和特定种类的网络爬虫(如移动履带VS桌面爬虫)的协议。

什么是robots.txt的使用?

非图像文件

对于非图像文件(即网页)的robots.txt应该只用于控制抓取流量,通常是因为你不希望你的服务器被百度或谷歌的爬虫抓取不重要或类似的网页。你不应该使用的robots.txt以隐藏谷歌搜索结果网页的手段。  这是因为其他页面可能指向你的网页,你的网页会被索引的方式,避免了robots.txt文件。如果你想从搜索结果中屏蔽你的页面,使用另一种方法,如密码保护或  非索引标记或指示

图像文件

robots.txt的确实防止图像文件出现在谷歌搜索结果中。(不过它不会阻止链接到您的形象其他网页或用户。)

资源文件

您可以使用robots.txt来阻止资源文件,如图片不重要,脚本或样式文件,如果你认为没有这些资源,加载网页不会被显著受到损失。但是,如果没有这些资源,使更难的页面,以了解谷歌的爬虫,你不应该阻止他们,否则谷歌不会做分析你的页面依赖于这些资源的一个好工作。

了解robots.txt的限制

你建立你之前robots.txt,你应该知道这个URL阻止方法的风险。有时,你可能需要考虑其他机制,以确保您的网址不在网络上找到。

  • robots.txt的指令仅指令

    在说明robots.txt文件中不能强制履带行为到您的网站; 相反,这些指令作为指令来访问你的网站的爬虫。尽管Baiduspider/Googlebot和其他的网页抓取工具遵守的指示robots.txt文件,其他爬虫可能不会。因此,如果你想保留的信息从网络爬虫的安全,最好使用其他阻塞的方法。

  • 不同的爬虫解读语法不同

    虽然网页抓取工具按照指令在一个robots.txt文件中,每个爬虫可能有不同的解释的指令。你应该知道针对不同的网络爬虫因为有些人可能无法理解某些指令的正确语法。

  • robots.txt指令无法阻止从其他网站到你的URL的引用

    虽然搜索引擎不会抓取或索引封锁的内容robots.txt,我们还是可能会发现和指数从网络上的其他地方不允许的URL。其结果是,URL地址和潜在的,如链接到网站的锚文本等公开的信息仍然可以出现在谷歌搜索结果中。

转载请注明出处:珠海seo网站优化 » 了解robots.txt文件

赞 (0)
分享到:更多 ()

评论 0