688
机器人
robots文件的使用-SEO优化系列教程37
robots文件的使用-SEO优化系列教程(37)
robots.txt是一个协议。robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准 ”(robots exclusion protocol)。网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。今天我 们就来讲讲robots文件的使用和robots.txt文件的作用,一起来看看吧!
robots.txt文件的作用
当一个搜索引擎访问一个站点时。它会首先检查该站点根目录下是否存在robots.txt。 如果存在,搜索机器人就会按照该文件中的内容确定访间的范围;如果该文件不 存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿 打扰”的提示牌。这个文件告诉来访的搜索引掌哪些房间可以进入和参观,哪些房间 因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但是,robot. txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。
robots协议可以屏蔽一些网站中比较大的文件,如图片、音乐、视频等内容。节省 服务器带宽;也可以屏蔽站点的一些死链接,禁止搜索引掌抓取。
robots文件的写法
1.robots文件的简单写法
robots文件最简单的写法只有两行:
第一行:user-agent:*
第二行:Disallow:(或Allow:)意思为:搜索引擎可以抓取网结的所有文件。
2.robots文件的其他写法
ser-aget:*这里的·代表所有的搜索引摩种类,·是一个通配符
Disallow:/admin/禁止抓取admin目录及目录下的文件。
Disallow:/require/禁止抓取require目录及目录下的文件。
Disallow:/ABC/禁止抓取ABC目录及目录下的文件
Disallow:/*?*禁止访问网站中所有包含问号()的网址。
Disallow:/ab/adc.html 禁止抓取ab文件夹下面的adc.html文件。
注意:在robots文件中,可以将网站地图的链接放在后面,方便搜索引擎首先访问并且抓取。
robots文件的设置
先检查网站是否有robots文件,直接在域名后输入robotstt 即可,如https/www. haol23.com/robots.txt,如果没有,就按照以下步骤设置:
第一步:在桌面建立一个记事本,命名为robots.tt:
第二步:写入以下两行英文代码,保存。User-agent:* Disallow
第三步:连接FTP,将robots.tt文件上传到FTP根目录中,
第四步:通过访问域名/robots.txt,检查是否正常访问。正常访问说明设置成功。
注意:robots.txt的命名都是小写。
以上就是对robots文件的使用和robots.txt文件的作用的介绍,感谢大家的收看,观看过后 的朋友们赶快运用起来吧!
(本文出自广州新川教育,专业网络营销、seo培训)
最后更新:2017-10-07 23:31:24