530
阿里云
虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法___安全问题_技术分享_云虚机主机-阿里云
,,问题场景:
,,客户使用虚拟主机,网站被搜索引擎爬虫访问耗费大量流量和带宽,如何处理。
,,解决方法:
,,可以通过在站点根目录下创建 ,Robots.txt,Robots.txt 文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。
,,1. 首先,先了解一下目前搜索引擎和其对应的 User-Agent,如下:
,,搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp
,,2. Robots.tx t样例代码:
,,例1. 禁止所有搜索引擎访问网站的任何部分
User-agent:
Disallow: /
例2. 允许所有的搜索引擎访问网站的任何部分
User-agent:
Disallow:
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
例5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
,注意事项:
- 三个目录要分别写。
- ,,请注意最后要带斜杠。
- ,,带斜杠与不带斜杠的区别。
,,例6. 允许访问特定目录中的部分url
实现a目录下只有b.htm允许访问
User-agent: *
Allow: /a/b.htm
Disallow: /a/
,,如问题还未解决,请联系售后技术支持
,,
最后更新:2016-07-19 17:11:25
上一篇:
Linux 系统虚拟主机 .htaccess 限制 IP 访问的方法___安全问题_技术分享_云虚机主机-阿里云
下一篇:
Linux 系统虚拟主机通过 PHP 程序代码限制 IP 访问___安全问题_技术分享_云虚机主机-阿里云
常见错误说明__附录_大数据计算服务-阿里云
发送短信接口__API使用手册_短信服务-阿里云
接口文档__Android_安全组件教程_移动安全-阿里云
运营商错误码(联通)__常见问题_短信服务-阿里云
设置短信模板__使用手册_短信服务-阿里云
OSS 权限问题及排查__常见错误及排除_最佳实践_对象存储 OSS-阿里云
消息通知__操作指南_批量计算-阿里云
设备端快速接入(MQTT)__快速开始_阿里云物联网套件-阿里云
查询API调用流量数据__API管理相关接口_API_API 网关-阿里云
使用STS访问__JavaScript-SDK_SDK 参考_对象存储 OSS-阿里云