673
騰訊雲
怎麼寫robots.txt?
那麼我們得先來了解一下robots.txt文件是什麼,有什麼作用。
當搜索引擎爬去我們頁麵時有一種爬蟲蜘蛛叫做“Baiduspider”
蜘蛛在爬去網站頁麵之前,首先會去訪問網站根目錄下麵的一個文件,就是robots.txt。這個文件其實就是給“蜘蛛”的規則,如果沒有這個文件,蜘蛛會認為你的網站同意全部抓取網頁。
Robots.txr文件是一個純文本文件,可以告訴蜘蛛哪些頁麵可以被抓取(收錄),哪些頁麵不能被抓取。
寫robots.txt要注意的問題:
1、隻有在你的網站包括不希望被搜索引擎收錄的內容時,才利用robots.txt文件。要是您希望搜索引擎收錄網站上全部內容,切勿創建 robots.txt文件,不要創建一個內容為空的robots.txt文件。這一點通常被人們忽視,實際上創建空的robots.txt文件對搜刮引擎非常不利。
2、如果你不想自己寫robots.txt文件,那就請Google幫你寫。登錄Google平台,有生成robots.txt文件的。
3、robots.txt文件是以純文本格式存在的txt文件。
4、robots.txt必須放在網站的根目錄中。最上層的robots.txt文件必須這樣被訪問:如廣州seo網站寫的robots.txt https://g.moonseo.cn/robots.txt
5、robots.txt通常在某個分目錄中還可以存在,但是要是與頂級目錄中的robots.txt有不同,則以頂級目錄中robots.txt為準。
6、寫robots.txt時要嚴格根據以下大小寫形式來寫
7、User-agent: *
Disallow: /
這種格式不但僅是阻止抓取頁麵,更主要的是你的網站被收錄了,然後又把robots.txt文件修改成以上格局,那麼你的網站將在搜索引擎中被刪除,整個地刪除。
8、元標誌對一樣平常的網站來說可有可無,不過你還是得認識:
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>(不容許抓取該頁麵,不容許跟著該頁麵上的鏈連續續抓取)
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>(容許抓取該頁麵,容許跟著該頁麵上的鏈連續續抓取)
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>(容許抓取該頁麵,不容許跟著該頁麵上的鏈連續續抓取)
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>(不容許抓取該頁麵,容許跟著該頁麵上的鏈連續續抓取)
9、必要刪除一些被搜索引擎收錄的特定網頁,參考
https://www.google.com/support/webmasters/bin/answer.py?answer=35301
目前好像隻有Google這麼做了
10、如果你的網站比較簡單,那麼下麵的格式足夠你利用的了。要是比較大的話,必要訪問這裏而又不必要訪問那邊,阻止這個文件又要容許那個文件,容許訪問訪問帶有“?”標記的特定網頁等等,那麼你必須結合下麵的格式詳細研究符合於你網站的robots.txt文件寫法。
接下來就和大家說說怎麼寫robots.txt?
1、阻止搜索引擎訪問網站中全部的動態頁麵(動態頁麵便是URL中任何帶有“?”的頁麵)
User-agent: *
Disallow: /*?*
2、限定搜索引擎訪問某一特定文件後綴形式的網頁。
User-agent: *
Disallow: /*.後綴形式(如.html、.htm、.php等等)
3、僅僅容許搜索引擎訪問某一特定文件後綴形式的網頁。
User-agent: *
Allow: .後綴形式(如.html、.htm、.php等等)$
Disallow: /
4、僅克製某一搜索引擎訪問你的網站。 Google是googlebot 百度是baiduspider
User-agent: baiduspider
Disallow: /
5、阻止搜索擎訪問網站特定某一文件格式的文件(注意不是網頁)
User-agent: *
Disallow: /*.(文件格局:如gif、jpg等等)$
6、僅僅容許某一搜索引擎訪問你的網站。同樣百度是baiduspider Google是googlebot
User-agent: baiduspider
Allow:
User-agent: googlebot
Allow:
7、要是你網站的某個目錄不想被搜索引擎收錄,寫法如下:
User-agent: *
Disallow: /目錄名稱1/
Disallow: /目錄名稱2/
Disallow: /目錄名稱3/
過細:不能寫成Disallow: /目錄名稱1/ /目錄名稱2/ 這樣的情勢,每個目錄要單獨另起一行特別闡明。
8、容許全部的搜索引擎訪問你的網站的任何部門,這是通常的用法。
User-agent: *
Disallow:
大概
User-agent: *
Allow: /
9、阻止全部搜索引擎訪問網站的任何部門,也便是是阻止全部引擎收錄你的網站。
User-agent: *
Disallow: /
10、容許搜索引擎訪問特定目錄中的網頁
User-agent: *
Allow: /目錄1/目錄2(容許訪問目錄2中的網頁)
Allow: /目錄3/目錄4(容許訪問目錄4中的網頁)
Allow: /目錄5/目錄6(容許訪問目錄6中的網頁)
Disallow: /目錄1/
Disallow: /目錄3/
Disallow: /目錄5/
上麵所介紹的都是幾種常用的文件格式。詳細的寫法還要視個人的網站需求來定。
最後更新:2016-12-29 14:33:19