seo常见问题解答

《seo常见问题解答》由珠海SEO骆辉校seo博客于2016年07月13日整理发布

一般问题

  • 我的网站需要 robots.txt 文件吗?
  • 我应使用哪种方法?
  • 我可以使用这些方法移除其他人的网站吗?
  • 如何降低 Google 对我网站的抓取速度?

robots.txt

  • 我在多个网站中使用同一个 robots.txt。我可以使用完整网址而不是相对路径吗?
  • 我可以将 robots.txt 文件放在子目录中吗?
  • 我想屏蔽某个不公开文件夹。我可以禁止其他人读取我的 robots.txt 文件吗?
  • 我需要添加 allow 指令以允许抓取吗?
  • 如果我的 robots.txt 文件存在错误,或者我使用了不受支持的指令,会发生什么情况?
  • 我应使用什么程序创建 robots.txt 文件?
  • 如果我使用 robots.txt disallow 指令禁止 Google 抓取某个网页,该网页会从搜索结果中消失吗?
  • 我对 robots.txt 文件的更改要过多久才会体现在我的搜索结果中?
  • 如何在 robots.txt 文件中指定采用 AJAX 抓取方案的网址?
  • 如何暂时停止所有对我网站的抓取?
  • 我的服务器不区分大小写。如何才能完全禁止对某些文件夹的抓取?
  • 我对所有网址(包括 robots.txt 文件)都返回了 403“禁止访问”。为什么百度/ Google 仍在抓取我的网站?

漫游器元标记

  • 漫游器元标记可以替代 robots.txt 文件吗?
  • 可以使用漫游器元标记禁止将某网页中的部分内容编入索引吗?
  • 可以在 <head> 部分之外使用漫游器元标记吗?
  • 漫游器元标记会禁止抓取操作吗?
  • nofollow 漫游器元标记与 rel="nofollow" 链接属性相比如何?

X-Robots-Tag HTTP 标头

  • 如何查看网址的 X-Robots-Tag?

还有其他问题吗?

一般问题

我的网站需要 robots.txt 文件吗?

不需要。Googlebot 访问网站时,我们会先通过尝试检索 robots.txt 文件来请求抓取权限。对于不包含 robots.txt 文件、漫游器元标记或 X-Robots-Tag HTTP 标头的网站,我们一般会照常抓取并编入索引。

我应使用哪种方法?

这要视具体情况而定。简而言之,这三种方法分别适用于不同的情况:

  1. robots.txt:如果抓取您的内容会在您的服务器上引发问题,请使用该方法。例如,您可能要禁止抓取无限多个日历脚本。您不应使用 robots.txt 来屏蔽不公开内容(而应使用服务器端身份验证机制)或处理规范化(参阅我们的帮助中心)。如果您必须确保某个网址不被编入索引,请使用漫游器元标记或 X-Robots-Tag HTTP 标头。
  2. 漫游器元标记:如果您需要控制单个 HTML 网页在搜索结果中的显示效果,或者需要确保该网页不显示,请使用该方法。
  3. X-Robots-Tag HTTP 标头:如果您需要控制非 HTML 内容在搜索结果中的显示效果,或者需要确保这些内容不显示,请使用该方法。

我可以使用这些方法移除其他人的网站吗?

不可以。这些方法仅适用于您可在其中修改代码或添加文件的网站。如果您想从某个第三方网站中移除内容,则需要与该网站的站长联系,让其移除相应内容。

如何降低 Google 对我网站的抓取速度?

一般来讲,您可以在baidu / Google 网站站长工具帐户中调整抓取速度设置。

robots.txt

我在多个网站中使用同一个 robots.txt。我可以使用完整网址而不是相对路径吗?

不可以。robots.txt 文件中的指令(“Sitemap:”除外)仅对相对路径有效。

我可以将 robots.txt 文件放在子目录中吗?

不可以。该文件必须位于网站的顶层目录中。

我想屏蔽某个不公开文件夹。我可以禁止其他人读取我的 robots.txt 文件吗?

不可以。robots.txt 文件可由各种用户读取。如果某些内容的文件夹或文件名是非公开内容,它们便不应被列在 robots.txt 文件中。我们建议您不要根据用户代理或其他属性提供不同的 robots.txt 文件。

我需要添加 allow 指令以允许抓取吗?

您不需要添加 allow 指令。allow 指令仅用于替换同一 robots.txt 文件中的 disallow 指令。

如果我的 robots.txt 文件存在错误,或者我使用了不受支持的指令,会发生什么情况?

网页抓取工具一般具有很高的灵活性,通常不会因 robots.txt 文件中的小错误而受到影响。一般情况下,最严重的后果就是忽略不正确或不受支持的指令。请注意,尽管 Google 在读取 robots.txt 文件时无法了解您的意图,但我们必须解析所获取的 robots.txt 文件。也就是说,如果您意识到自己的 robots.txt 文件存在问题,那么这些问题通常很容易解决。

我应使用什么程序创建 robots.txt 文件?

您可以使用任何可创建有效文本文件的程序。常用来创建 robots.txt 文件的程序包括记事本、TextEdit、vi 或 emacs。百度,Google 网站站长工具中包含可帮助您为网站创建 robots.txt 文件的工具。将 robots.txt 文件放置在网站上之后,您可以使用 百度,Google 网站站长工具中的 百度,Googlebot 抓取方式功能验证其有效性。网站站长工具还可帮助您生成 robots.txt 文件。

如果我使用 robots.txt disallow 指令禁止 百度,Google 抓取某个网页,该网页会从搜索结果中消失吗?

禁止 百度,Google 抓取某个网页不仅可能会降低该网页的排名或导致其在一段时间后完全跌出排名范围,还可能会减少相应搜索结果下方的文本向用户提供的详细信息量。这是因为在没有网页内容的情况下,搜索引擎处理的信息量会大大减少。

但是,robots.txt Disallow 无法保证某一网页不会显示在搜索结果中:百度,Google 仍可能会根据外部信息(如传入的链接)断定其具有相关性。如果您希望明确禁止某个网页被编入索引,则应改为使用 noindex 漫游器元标记或 X-Robots-Tag HTTP 标头。在这种情况下,您不应在 robots.txt 中屏蔽该网页,因为 百度,Google 只有在抓取该网页时才能看到和遵循相关标记。

我对 robots.txt 文件的更改要过多久才会体现在我的搜索结果中?

首先,robots.txt 文件的缓存必须进行更新(我们一般最多将内容缓存一天)。即使在系统发现了文件的更改后,抓取与索引编入的过程也很复杂,有时对于个别网址的处理可能需要很久,因此无法给出准确的时间。另请注意,即使您的 robots.txt 文件禁止访问某个网址,该网址仍有可能显示在搜索结果中,只是我们无法抓取它。如果您想加速移除禁止百度, Google 访问的网页,请通过百度/ Google 网站站长工具提交移除请求。

如何在 robots.txt 文件中指定采用 AJAX 抓取方案的网址?

在指定采用 AJAX 抓取方案的网址时,您必须使用已抓取的网址。有关详情,请参阅 AJAX 抓取方案常见问题解答

如何暂时停止所有对我网站的抓取?

您可以对所有网址(包括 robots.txt 文件)返回 HTTP 结果代码 503,从而暂时停止所有对您网站的抓取。系统会定期重新请求 robots.txt 文件,直到能够再次访问该文件。我们建议您不要通过改动 robots.txt 文件来禁止抓取。

我的服务器不区分大小写。如何才能完全禁止对某些文件夹的抓取?

robots.txt 文件中的指令是区分大小写的。在这种情况下,建议您确保使用规范化方法编入索引的网址版本只有一个。这样可以简化您的 robots.txt 文件。如果无法使用上述方法,那么我们建议您列出文件夹名称的常见组合,或者使用名称的前几个字符代替全称,尽量将其缩短。例如,您无需列出“/MyPrivateFolder”的所有大小写组合,只要列出“/MyP”的组合即可(前提是您确定不存在其他包含这些首字符的可抓取网址)。此外,如果不存在抓取问题,则可改用漫游器元标记或 X-Robots-Tag HTTP 标头。

我对所有网址(包括 robots.txt 文件)都返回了 403“禁止访问”。为什么 搜索引擎仍在抓取我的网站?

HTTP 结果代码 403 与其他 4xx HTTP 结果代码一样,代表 robots.txt 文件不存在。因此,抓取工具一般会假定可以抓取该网站的所有网址。要禁止对网站进行抓取,必须正常地返回 robots.txt 文件(以 200“成功”HTTP 结果代码表示),其中应包含相应的“disallow”指令。

 

漫游器元标记

漫游器元标记可以替代 robots.txt 文件吗?

不可以。robots.txt 文件控制访问的是哪些网页。漫游器元标记控制是否将网页编入索引,但是需要抓取相应的网页才能查看该标记。如果抓取某个网页时存在问题(例如该网页导致服务器高负载),则应使用 robots.txt 文件。如果您只是想控制某个网页是否显示在搜索结果中,则可使用漫游器元标记。

可以使用漫游器元标记禁止将某网页中的部分内容编入索引吗?

不可以,漫游器元标记是网页一级的设置。

可以在 <head> 部分之外使用漫游器元标记吗?

不可以。漫游器元标记目前必须位于网页的 <head> 部分。

漫游器元标记会禁止抓取操作吗?

不会。即使漫游器元标记目前显示 noindex,我们仍然需要不定期重新抓取该网址以查看漫游器元标记是否发生了更改。

nofollow 漫游器元标记与 rel="nofollow" 链接属性相比如何?

nofollow 漫游器元标记适用于网页中的所有链接。rel="nofollow" 链接属性仅适用于网页中的特定链接。有关rel="nofollow" 链接属性的详情,请参阅我们的帮助中心中有关用户生成的垃圾内容以及 rel=”nofollow” 的文章。

 

X-Robots-Tag HTTP 标头

如何查看网址的 X-Robots-Tag?

查看服务器标头的简单方法是使用基于网络的服务器标头检查器或使用 Google 网站站长工具中的 Googlebot 抓取方式功能。

转载请注明出处:珠海seo网站优化 » seo常见问题解答

赞 (1)
分享到:更多 ()

评论 0