互联网技术 · 2024年2月18日

编写robots.txt文件的秘籍,新手必读

当我们的网站上线之后,一定会有一些不想让百度抓取的页面、文件,针对这种问题,我们就要使用协议去屏蔽。那么这个协议是什么?究竟怎么写这个协议呢?

一、搜索引擎协议: 搜索引擎协议也就是我们常说的robots.txt。这是我们网站和搜索引擎之间的协议。当搜索引擎来到我们网站的时候,会先看一看有没有这个文件,在进行下一步的抓取。但是需要注意的是,这个协议只是我们单方面的,搜索引擎遵守与否,我们管不了。但是正常情况下搜索引擎会遵守这个协议。

robots.txt语法: 1.基本语法: User-agent 定义协议的搜索引擎。 Disallow 不允许抓取 Allow 允许抓取 * 通配符,代表所有 $ 结束符 2.详情讲解: User-agent: * 所有的搜索引擎都要遵守 User-agent: Baiduspider 针对百度的协议 Disallow: / 屏蔽全站 Disallow: /can/ 屏蔽can文件下的所有文件 Allow: /can/123 屏蔽can文件下的所有文件,但是允许收录123 Disallow: /*.jpg$ 屏蔽所有的图片文件。

二、情况需要使用robots

1.统一路径 在我们的网站中,指向页面的路径一定是有且只有一个。一旦多途径指向一个页面,会导致百度不知道收录那个页面。所以我们只要屏蔽了一个,让百度收录我们想让收录的。 2.搜索路径 如果我们网站中有搜索框,那么我们就要把搜索结果页面给屏蔽掉。目的就是为了防止有人使用这个搜索框捣乱。 3.标签路径 如果我们网站有标签页面,这个标签页面就是中文的链接,中文链接百度不认识,所以要屏蔽。 4.js文件 对于js文件或者其他无意义的文件,我们都可以屏蔽掉。

注意事项: 1.基础语法中PS的点。 2.生效时间 robots是我们和搜索引擎之间的一个单方面的协议,不是我们今天写上,明天百度就会遵守。想让百度遵守是需要一个过程的,一般情况下是两个月。但是也不排除当天写,当天生效。所以在更改robots的时候,一定要小心小心再小心。一旦你的robots错了,对整个网站的影响是巨大的。 3.不要随便的屏蔽整站 一些新手在做网站的时候,没有规划,随搭随建,网站不能一下子做好,经常做个半截,所以很多新手就会将我们的网站全部屏蔽掉。如果你真的这么做了,那么我要恭喜你,蜘蛛可能在未来的两个月中不来访问你的网站。即便是你去请蜘蛛也不会来。所以这里给新手的建议就是一定要对网站规划好,一次性搭建完成。等待收录。

文章来源:懒猫seo博客

来源地址:http://www.lanmaoseo.com/seowzyh/6995.html

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册