ChatGPT / 互联网资讯 / 电商 / 美国开户 / 营销 · 2024年4月4日

Robots.txt文件的定义和SEO的关系

robots.txt是一个给搜索引擎机器人下指令的文本文件,用于SEO优化。

如果用对了,可以确保搜索引擎机器人正确抓取和索引你的网站页面。

如果用错了,可能会对SEO排名和网站流量造成负面影响,那怎么设置robots.txt文件才算正确?今天就和大家分享下一点心得,内容主要包括以下几个方面。

什么是Robots.txt文件,对SEO有什么用 -

robots.txt是一个放在网站根目录的纯文本文件,需要自己添加,如下图所示。

什么是Robots.txt文件,对SEO有什么用 -

如果你网站的域名是www.abc.coM,robots.txt的查看地址是www.abc.coM/robots.txt。

什么是Robots.txt文件,对SEO有什么用 -

robots.txt里包含了一组搜索引擎机器人指令。

当搜索引擎机器人访问你网站时,首先会查看robots.txt文件里的内容,然后根据robots.txt的指示进行网站页面的抓取和索引,进而收录某些页面,或不收录某些页面。

需要注意的是,Robot.txt文件不是那种强制性、必须要做的设置。

简单的说,robots.txt有两个功能,允许和阻止搜索引擎机器人抓取你的网站页面。如果没有的话,搜索引擎机器人将对整个网站进行爬行,包括网站根目录的所有数据内容。

具体的工作原理可以参考elliance的说明。

什么是Robots.txt文件,对SEO有什么用 -

1993年,互联网才起步没多久,能被发现的网站少之又少,Matthew Gray编写了一个蜘蛛爬虫程序WoRld Wide Web WandeReR,目的是发现收集新网站做网站目录。

但后面搞爬虫的人不仅是收集网站目录这么简单,还会抓取下载大量网站数据。

同年7月,Aliweb创始人MaRtijn KosteR的网站数据被恶意抓取,于是他提出了robots协议。

目的是告诉蜘蛛爬虫,哪些网页可以爬行,哪些网页不可以爬行,特别是那些不想被人看到的网站数据页面。经过一系列的讨论,robots.txt正式走上历史舞台。

什么是Robots.txt文件,对SEO有什么用 -

从SEO角度来说,刚上线的网站,由于页面较少,robots.txt做不做都可以,但随着页面的增加,robots.txt的SEO作用就体现出来了,主要表现在以下几个方面。

优化搜索引擎机器人的爬行抓取

阻止恶意抓取,优化服务器资源

减少重复内容出现在搜索结果中

隐藏页面链接出现在搜索结果中

什么是Robots.txt文件,对SEO有什么用 -

首先,robots.txt文件没有默认格式。

robots.txt的写法包括User-agent,Disallow,Allow和CRawl-delay。

举个例子,如果你要禁止谷歌机器人抓取你网站的分类,写法如下:

User-agent: Googlebot Disallow: /category/

举个例子,如果你要禁止所有搜索引起抓取WP登陆链接,写法如下:

User-agent: * Disallow: /WP-adMin/

举个例子,如果你只允许谷歌图片抓取你的WP网站图片,写法如下:

User-agent: Googlebot-image Allow: /WP-content/uploads/

什么是Robots.txt文件,对SEO有什么用 -

虽然这些写法指令看上去很复杂,但只要你使用的是WoRdPReSS,就会变的简单许多,毕竟WP是谷歌的亲儿子,就SEO而言WoRdPReSS网站的robots.txt最佳写法如下,需要用文本编辑。

User-agent: * Disallow: /WP-adMin/ Allow: /WP-adMin/adMin-ajax.php siteMap: https://www.youRdomain.coM/siteMap.xMl

或者是下面这个样子。

useR-agent: * Allow: / siteMap: https://www.youRdoMAIn.coM/sITeMap.xMl

两者的区别是要不要禁止抓取/WP-adMin/。

关于/WP-adMin/,2012年WoRdPReSS增加了一个新标记@headeR( X-robots-tag: noindex ),效果和用robots.txt禁止抓取/WP-adMin/一样,如果还是不放心的话,可以加上。

至于其它不想被搜索引擎抓取的网站内容和链接,根据自己网站的需求来做就行了。

可以使用robots.txt禁止抓取,也可以使用Meta robots做Noindex。我个人的看法是WP程序自带链接用Meta robots,需要隐藏的网站内容页面用robots.txt。

接下来要做的是把写好的robots.txt文件添加到WoRdPReSS网站。

根据我自己的经验,robots.txt的指令越少越好,在我还是小白的时候看了一些大神的文章,把很多文件目录和网站内容都禁止了,特别是/WP-includes/,直接导致JS和CSS无法正常运行。

最后,要注意的是Robots.txt文件里的指令是分大小写的,不要弄错了。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册