530
MIUI米柚
虛擬主機被搜索引擎爬蟲訪問耗費大量流量解決方法___安全問題_技術分享_雲虛機主機-阿裏雲
,,問題場景:
,,客戶使用虛擬主機,網站被搜索引擎爬蟲訪問耗費大量流量和帶寬,如何處理。
,,解決方法:
,,可以通過在站點根目錄下創建 ,Robots.txt,Robots.txt 文件是網站的一個文件,搜索引擎蜘蛛抓取網站首先就是抓取這個文件,根據裏麵的內容來決定對網站文件訪問的範圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控製蜘蛛的爬取路徑。
,,1. 首先,先了解一下目前搜索引擎和其對應的 User-Agent,如下:
,,搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp
,,2. Robots.tx t樣例代碼:
,,例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent:
Disallow: /
例2. 允許所有的搜索引擎訪問網站的任何部分
User-agent:
Disallow:
例3. 僅禁止Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow:
例5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
,注意事項:
- 三個目錄要分別寫。
- ,,請注意最後要帶斜杠。
- ,,帶斜杠與不帶斜杠的區別。
,,例6. 允許訪問特定目錄中的部分url
實現a目錄下隻有b.htm允許訪問
User-agent: *
Allow: /a/b.htm
Disallow: /a/
,,如問題還未解決,請聯係售後技術支持
,,
最後更新:2016-07-19 17:11:25
上一篇:
Linux 係統虛擬主機 .htaccess 限製 IP 訪問的方法___安全問題_技術分享_雲虛機主機-阿裏雲
下一篇:
Linux 係統虛擬主機通過 PHP 程序代碼限製 IP 訪問___安全問題_技術分享_雲虛機主機-阿裏雲
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲