WordPress的robots文件写法

博主：依旧v
发布时间：2019 年 08 月 08 日
1326 次浏览
1 条评论
2416字数
分类： SEO教程 SEO技术

使用Wordpress搭建的博客，利用robots.txt文件限制搜索引擎抓取部分目录及文件，归纳大致有以下几种方法。

robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单，但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容，或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

使用方法:

robots.txt 文件应该放在网站根目录下，并且该文件是可以通过互联网进行访问的。
例如：如果您的网站地址是 https://www.19-v.cn/那么，该文件必须能够通过 https://www.19-v.cn//robots.txt 打开并看到里面的内容。

一.最简单开放的写法

抓取不做任何限制，一般博客这样写就可以了

User-agent: *
Disallow:

允许所有蜘蛛访问，允许访问所有内容。Wordpress只要模板中链接设计合理，没有需要限制的特殊内容，推荐使用这种写法。

二.最简单的严格写法

User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=

允许所有蜘蛛访问，限制以“wp-”开头的目录及文件，限制抓取.php文件、.inc文件、.js文件、.css文件，限制抓取搜索结果。

Disallow: /wp-* 会连同附件目录一起限制抓取，如果想让搜索引擎抓取附件中的内容，将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。

三.最合理的写法

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: https://www.19-v.cn/sitemap.xml

允许所有搜索引擎抓取，逐一列举需要限制的目录，限制抓取搜索结果。

包含sitemap.xml地址（这一项viki中有专门的说明，但Google管理员工具会提示‘检测到无效的 Sitemap 引用’，有效性尚有争议）。

四.robots.txt其他写法

为避免在搜索引擎中出现重复页面，Wordpress玩家自创了很多robots写法，列举一些常用的，作为参考（适用于伪静态方式的永久链接）：

Disallow: /page/
#限制抓取Wordpress分页
Disallow: /category/*/page/*
#限制抓取分类的分页
Disallow: /tag/
#限制抓取标签页面
Disallow: */trackback/
#限制抓取Trackback内容
Disallow: /category/*
#限制抓取所有分类列表

五.robots.txt标签简介

User-agent:

用于描述搜索引擎蜘蛛的名字，在" Robots.txt "文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在" Robots.txt "文件中，"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被Robot访问到。

举例：

例一："Disallow:/help"是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。

例二："Disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html，而不能抓取/help/index.html。

例三：Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎蜘蛛，该网站都是开放的可以被抓取的。

#:Robots.txt 协议中的注释符。

综合例子：

例一：通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录，以及 "/tmp/"目录和 /foo.html 文件，设置方法如下：

User-agent: *

Disallow: /bin/cgi/

Disallow: /tmp/

Disallow: /foo.html

例二：通过"/robots.txt"只允许某个搜索引擎抓取，而禁止其他的搜索引擎抓取。如：只允许名为"slurp"的搜索引擎蜘蛛抓取，而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容，设置方法如下：

User-agent: *

Disallow: /cgi/

User-agent: slurp

Disallow:

例三：禁止任何搜索引擎抓取我的网站，设置方法如下：

User-agent: *

Disallow: /

例四：只禁止某个搜索引擎抓取我的网站如：只禁止名为“slurp”的搜索引擎蜘蛛抓取，设置方法如下：

User-agent: slurp

Disallow: /

最后修改：2022 年 08 月 28 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

1 条评论

今日新闻
March 2nd, 2021 at 09:45 pm

文章不错交个朋友

回复
依旧v
May 18th, 2020 at 04:03 pm

简单一句话，我们是伙伴。

回复

ayiya
你女朋友这么漂亮你这个朋友我交定了😄
jiyouzhan
这篇文章写得深入浅出，让我这个小白也看懂了！
ayiya
嗯呢没怎么看你更新都
ayiya
哈喽老兄我博客域名从b0ae.cn变更文blog.el9.c...
Thomas
该评论仅登录用户及评论双方可见

WordPress的robots文件写法

依旧v • 2019 年 08 月 08 日

使用Wordpress搭建的博客，利用robots.txt文件限制搜索引擎抓取部分目录及文件，归纳大致有以下几种方法。robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单，但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容，或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。使用方法:robots.txt 文件应该放在网站根目录下，并且该文件是可以通过互联网进行访问的。 例如：如果您的网站地址是 https://www.19-v.cn/那么，该文件必须能够通过 https://www.19-v.cn//robots.txt 打开并看到里面的内容。<figure class="wp-block-image"><img src="https://cdn.19-v.cn/usr/themes/handsome/assets/img/loading.svg" alt="" style=""data-original="https://s2.ax1x.com/2019/08/08/eowkkR.jpg"></figure><h4>一.最简单开放的写法</h4>抓取不做任何限制，一般博客这样写就可以了<pre class="wp-block-code"><code>User-agent: *
Disallow:</code></pre>允许所有蜘蛛访问，允许访问所有内容。Wordpress只要模板中链接设计合理，没有需要限制的特殊内容，推荐使用这种写法。<h4>二.最简单的严格写法</h4><pre class="wp-block-code"><code>User-agent: *
Disallow: /wp-*
#Allow: /wp-content/uploads/
Disallow: /*.php$
Disallow: /*.inc$
Disallow: /*.js$
Disallow: /*.css$
Disallow: /?s=</code></pre>允许所有蜘蛛访问，限制以“wp-”开头的目录及文件，限制抓取.php文件、.inc文件、.js文件、.css文件，限制抓取搜索结果。Disallow: /wp-* 会连同附件目录一起限制抓取，如果想让搜索引擎抓取附件中的内容，将第三行的 # 号注释去掉。Allow 不是所有搜索引擎都支持。<h4>三.最合理的写法</h4><pre class="wp-block-code"><code>User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Sitemap: https://www.19-v.cn/sitemap.xml</code></pre>允许所有搜索引擎抓取，逐一列举需要限制的目录，限制抓取搜索结果。包含sitemap.xml地址（这一项viki中有专门的说明，但Google管理员工具会提示‘检测到无效的 Sitemap 引用’，有效性尚有争议）。<h4>四.robots.txt其他写法</h4>为避免在搜索引擎中出现重复页面，Wordpress玩家自创了很多robots写法，列举一些常用的，作为参考（适用于伪静态方式的永久链接）：<pre class="wp-block-preformatted">Disallow: /page/
#限制抓取Wordpress分页
Disallow: /category/*/page/*
#限制抓取分类的分页
Disallow: /tag/
#限制抓取标签页面
Disallow: */trackback/
#限制抓取Trackback内容
Disallow: /category/*
#限制抓取所有分类列表 </pre><h4>五.robots.txt标签简介</h4>User-agent:用于描述搜索引擎蜘蛛的名字，在" Robots.txt "文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在" Robots.txt "文件中，"User-agent:*"这样的记录只能有一条。Disallow:用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被Robot访问到。举例：例一："Disallow:/help"是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。例二："Disallow:/help/"是指允许搜索引擎蜘蛛抓取/help.html，而不能抓取/help/index.html。例三：Disallow记录为空说明该网站的所有页面都允许被搜索引擎抓取，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎蜘蛛，该网站都是开放的可以被抓取的。#:Robots.txt 协议中的注释符。综合例子 ：例一：通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录，以及 "/tmp/"目录和 /foo.html 文件，设置方法如下：User-agent: *Disallow: /bin/cgi/Disallow: /tmp/Disallow: /foo.html例二：通过"/robots.txt"只允许某个搜索引擎抓取，而禁止其他的搜索引擎抓取。如：只允许名为"slurp"的搜索引擎蜘蛛抓取，而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容，设置方法如下：User-agent: *Disallow: /cgi/User-agent: slurpDisallow:例三：禁止任何搜索引擎抓取我的网站，设置方法如下：User-agent: *Disallow: /例四：只禁止某个搜索引擎抓取我的网站如：只禁止名为“slurp”的搜索引擎蜘蛛抓取，设置方法如下：User-agent: slurpDisallow: /

WordPress的robots文件写法

一.最简单开放的写法

二.最简单的严格写法

三.最合理的写法

四.robots.txt其他写法

五.robots.txt标签简介

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

1 条评论

给QQ浏览器添加一个快捷“site”

搭建青龙面板让服务器挂机赚取京东豆获得收益

关于我女朋友到访我博客这件事

本站推广页面-进站必点

域名绕过备案使用国内服务器方法

seo文章关键词怎么布局才有效果

一款好看的导航网源码(全静态页面带特效)

站长工具箱,SEO分析效率工具

网站建设前你不得不知道的基本知识

记录一下最近

WordPress的robots文件写法

一.最简单开放的写法

二.最简单的严格写法

三.最合理的写法

四.robots.txt其他写法

五.robots.txt标签简介

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

1 条评论

WordPress的robots文件写法

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款