閱讀673 返回首頁    go 騰訊雲


怎麼寫r​o​b​o​t​s.​t​x​t​?

那麼我們得先來了解一下robots.txt文件是什麼,有什麼作用。

 

當搜索引擎爬去我們頁麵時有一種爬蟲蜘蛛叫做“Baiduspider

 

蜘蛛在爬去網站頁麵之前,首先會去訪問網站根目錄下麵的一個文件,就是robots.txt。這個文件其實就是給“蜘蛛”的規則,如果沒有這個文件,蜘蛛會認為你的網站同意全部抓取網頁。

 

Robots.txr文件是一個純文本文件,可以告訴蜘蛛哪些頁麵可以被抓取(收錄),哪些頁麵不能被抓取。

 

robots.txt要注意的問題:

 

1、隻有在你的網站包括不希望被搜索引擎收錄的內容時,才利用robots.txt文件。要是您希望搜索引擎收錄網站上全部內容,切勿創建 robots.txt文件,不要創建一個內容為空的robots.txt文件。這一點通常被人們忽視,實際上創建空的robots.txt文件對搜刮引擎非常不利。

 

2、如果你不想自己寫robots.txt文件,那就請Google幫你寫。登錄Google平台,有生成robots.txt文件的。

 

3robots.txt文件是以純文本格式存在的txt文件。

 

4robots.txt必須放在網站的根目錄中。最上層的robots.txt文件必須這樣被訪問:如廣州seo網站寫的robots.txt https://g.moonseo.cn/robots.txt

 

5robots.txt通常在某個分目錄中還可以存在,但是要是與頂級目錄中的robots.txt有不同,則以頂級目錄中robots.txt為準。

 

6、寫robots.txt時要嚴格根據以下大小寫形式來寫

 

7User-agent: *

Disallow: /

這種格式不但僅是阻止抓取頁麵,更主要的是你的網站被收錄了,然後又把robots.txt文件修改成以上格局,那麼你的網站將在搜索引擎中被刪除,整個地刪除。

 

8、元標誌對一樣平常的網站來說可有可無,不過你還是得認識:

META NAME=ROBOTS” CONTENT=NOINDEX,NOFOLLOW”>(不容許抓取該頁麵,不容許跟著該頁麵上的鏈連續續抓取)

 

META NAME=ROBOTS” CONTENT=INDEX,FOLLOW”>(容許抓取該頁麵,容許跟著該頁麵上的鏈連續續抓取)

 

META NAME=ROBOTS” CONTENT=INDEX,NOFOLLOW”>(容許抓取該頁麵,不容許跟著該頁麵上的鏈連續續抓取)

 

META NAME=ROBOTS” CONTENT=NOINDEX,FOLLOW”>(不容許抓取該頁麵,容許跟著該頁麵上的鏈連續續抓取)

 

9、必要刪除一些被搜索引擎收錄的特定網頁,參考

https://www.google.com/support/webmasters/bin/answer.py?answer=35301

目前好像隻有Google這麼做了

 

10、如果你的網站比較簡單,那麼下麵的格式足夠你利用的了。要是比較大的話,必要訪問這裏而又不必要訪問那邊,阻止這個文件又要容許那個文件,容許訪問訪問帶有“?”標記的特定網頁等等,那麼你必須結合下麵的格式詳細研究符合於你網站的robots.txt文件寫法。

 

接下來就和大家說說怎麼寫robots.txt

 

1、阻止搜索引擎訪問網站中全部的動態頁麵(動態頁麵便是URL中任何帶有“?”的頁麵)

User-agent: *

Disallow: /*?*

 

2、限定搜索引擎訪問某一特定文件後綴形式的網頁。

User-agent: *

Disallow: /*.後綴形式(如.html.htm.php等等)

 

3、僅僅容許搜索引擎訪問某一特定文件後綴形式的網頁。

User-agent: *

Allow: .後綴形式(如.html.htm.php等等)$

Disallow: /

 

4、僅克製某一搜索引擎訪問你的網站。 Googlegooglebot 百度是baiduspider

User-agent: baiduspider

Disallow: /

 

5、阻止搜索擎訪問網站特定某一文件格式的文件(注意不是網頁)

User-agent: *

Disallow: /*.(文件格局:如gifjpg等等)$

 

6、僅僅容許某一搜索引擎訪問你的網站。同樣百度是baiduspider Googlegooglebot

User-agent: baiduspider

Allow:

 

 

User-agent: googlebot

Allow:

 

7、要是你網站的某個目錄不想被搜索引擎收錄,寫法如下:

User-agent: *

Disallow: /目錄名稱1/

Disallow: /目錄名稱2/

Disallow: /目錄名稱3/

過細:不能寫成Disallow: /目錄名稱1/ /目錄名稱2/ 這樣的情勢,每個目錄要單獨另起一行特別闡明。

 

8、容許全部的搜索引擎訪問你的網站的任何部門,這是通常的用法。

User-agent: *

Disallow:

大概

User-agent: *

Allow: /

 

9、阻止全部搜索引擎訪問網站的任何部門,也便是是阻止全部引擎收錄你的網站。

User-agent: *

Disallow: /

 

10、容許搜索引擎訪問特定目錄中的網頁

User-agent: *

Allow: /目錄1/目錄2(容許訪問目錄2中的網頁)

Allow: /目錄3/目錄4(容許訪問目錄4中的網頁)

Allow: /目錄5/目錄6(容許訪問目錄6中的網頁)

Disallow: /目錄1/

Disallow: /目錄3/

Disallow: /目錄5/

 

上麵所介紹的都是幾種常用的文件格式。詳細的寫法還要視個人的網站需求來定。


最後更新:2016-12-29 14:33:19

  上一篇:go 【php方式】完美的WordPress www 301重定向方法
  下一篇:go 如何使用百度工具查搜索流量IP和百度索引量