怎麼寫robots.txt？

那麼我們得先來了解一下robots.txt文件是什麼，有什麼作用。

當搜索引擎爬去我們頁麵時有一種爬蟲蜘蛛叫做“Baiduspider”

蜘蛛在爬去網站頁麵之前，首先會去訪問網站根目錄下麵的一個文件，就是robots.txt。這個文件其實就是給“蜘蛛”的規則，如果沒有這個文件，蜘蛛會認為你的網站同意全部抓取網頁。

Robots.txr文件是一個純文本文件，可以告訴蜘蛛哪些頁麵可以被抓取（收錄），哪些頁麵不能被抓取。

寫robots.txt要注意的問題：

1、隻有在你的網站包括不希望被搜索引擎收錄的內容時，才利用robots.txt文件。要是您希望搜索引擎收錄網站上全部內容，切勿創建 robots.txt文件，不要創建一個內容為空的robots.txt文件。這一點通常被人們忽視，實際上創建空的robots.txt文件對搜刮引擎非常不利。

2、如果你不想自己寫robots.txt文件，那就請Google幫你寫。登錄Google平台，有生成robots.txt文件的。

3、robots.txt文件是以純文本格式存在的txt文件。

4、robots.txt必須放在網站的根目錄中。最上層的robots.txt文件必須這樣被訪問：如廣州seo網站寫的robots.txt https://g.moonseo.cn/robots.txt

5、robots.txt通常在某個分目錄中還可以存在，但是要是與頂級目錄中的robots.txt有不同，則以頂級目錄中robots.txt為準。

6、寫robots.txt時要嚴格根據以下大小寫形式來寫

7、User-agent: *

Disallow: /

這種格式不但僅是阻止抓取頁麵，更主要的是你的網站被收錄了，然後又把robots.txt文件修改成以上格局，那麼你的網站將在搜索引擎中被刪除，整個地刪除。

8、元標誌對一樣平常的網站來說可有可無，不過你還是得認識：

＜META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”＞（不容許抓取該頁麵，不容許跟著該頁麵上的鏈連續續抓取）

＜META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”＞（容許抓取該頁麵，容許跟著該頁麵上的鏈連續續抓取）

＜META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”＞（容許抓取該頁麵，不容許跟著該頁麵上的鏈連續續抓取）

＜META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”＞（不容許抓取該頁麵，容許跟著該頁麵上的鏈連續續抓取）

9、必要刪除一些被搜索引擎收錄的特定網頁，參考

https://www.google.com/support/webmasters/bin/answer.py?answer=35301

目前好像隻有Google這麼做了

10、如果你的網站比較簡單，那麼下麵的格式足夠你利用的了。要是比較大的話，必要訪問這裏而又不必要訪問那邊，阻止這個文件又要容許那個文件，容許訪問訪問帶有“?”標記的特定網頁等等，那麼你必須結合下麵的格式詳細研究符合於你網站的robots.txt文件寫法。

接下來就和大家說說怎麼寫robots.txt？

1、阻止搜索引擎訪問網站中全部的動態頁麵（動態頁麵便是URL中任何帶有“？”的頁麵）

User-agent: *

Disallow: /*?*

2、限定搜索引擎訪問某一特定文件後綴形式的網頁。

User-agent: *

Disallow: /*.後綴形式（如.html、.htm、.php等等）

3、僅僅容許搜索引擎訪問某一特定文件後綴形式的網頁。

User-agent: *

Allow: .後綴形式（如.html、.htm、.php等等）$

Disallow: /

4、僅克製某一搜索引擎訪問你的網站。 Google是googlebot 百度是baiduspider

User-agent: baiduspider

Disallow: /

5、阻止搜索擎訪問網站特定某一文件格式的文件（注意不是網頁）

User-agent: *

Disallow: /*.（文件格局：如gif、jpg等等）$

6、僅僅容許某一搜索引擎訪問你的網站。同樣百度是baiduspider Google是googlebot

User-agent: baiduspider

Allow:

User-agent: googlebot

Allow:

7、要是你網站的某個目錄不想被搜索引擎收錄，寫法如下：

User-agent: *

Disallow: /目錄名稱1/

Disallow: /目錄名稱2/

Disallow: /目錄名稱3/

過細：不能寫成Disallow: /目錄名稱1/ /目錄名稱2/ 這樣的情勢，每個目錄要單獨另起一行特別闡明。

8、容許全部的搜索引擎訪問你的網站的任何部門，這是通常的用法。

User-agent: *

Disallow:

大概

User-agent: *

Allow: /

9、阻止全部搜索引擎訪問網站的任何部門，也便是是阻止全部引擎收錄你的網站。

User-agent: *

Disallow: /

10、容許搜索引擎訪問特定目錄中的網頁

User-agent: *

Allow: /目錄1/目錄2（容許訪問目錄2中的網頁）

Allow: /目錄3/目錄4（容許訪問目錄4中的網頁）

Allow: /目錄5/目錄6（容許訪問目錄6中的網頁）

Disallow: /目錄1/

Disallow: /目錄3/

Disallow: /目錄5/

上麵所介紹的都是幾種常用的文件格式。詳細的寫法還要視個人的網站需求來定。

最後更新：2016-12-29 14:33:19

怎麼寫robots.txt？

上一篇：【php方式】完美的WordPress www 301重定向方法

下一篇：如何使用百度工具查搜索流量IP和百度索引量

相關內容

熱門內容

最新內容

怎麼寫r​o​b​o​t​s.​t​x​t​？

上一篇： 【php方式】完美的WordPress www 301重定向方法

下一篇： 如何使用百度工具查搜索流量IP和百度索引量

相關內容

熱門內容

最新內容

怎麼寫robots.txt？

上一篇：【php方式】完美的WordPress www 301重定向方法

下一篇：如何使用百度工具查搜索流量IP和百度索引量