閱讀455 返回首頁    go 阿裏雲 go 技術社區[雲棲]


一步一步SEO 之 準備工作

寫在前麵的話

SEO ,對大多人來說是個有意思的話題,不過似乎隻要和搜索引擎沾邊的話題都是有意思的,誰讓現在搜索引擎火那。對於絕大多數中小網站管理者來說,想推廣,就想到 SEO SEO 似乎是一道神秘的靈符,隻要用上它,可以保證我們的網站一夜之間流量直線上升,其實這是錯誤的遐想。本文作者結合其自身站點的一些經驗,以及借鑒網上的一些成功經驗,逐步揭開 SEO 的神秘麵紗,還原 SEO 的本質,讓大家對 SEO 有個清醒的認識,相信自己也可以成為 SEOer

SEO "Search Engine Optimization" 的縮寫,我們翻譯為搜索引擎優化。 SEO 主要就是通過對網站的關鍵詞,主題,鏈接,結構,標簽,排版等各方麵進行優化,使搜索引擎更容易搜索到網站的內容,並且讓網站的各個網頁在搜索引擎( Google 、百度、 Yahoo ……)中獲得較高的評分,從而獲得較好的排名。

SEO 是讓我們的站點更加符合搜索引擎的胃口。說白了,就是投其所好。主流的搜索引擎有 google baidu yahoo ,各個搜索引擎之間還有自己細微的差別,所以想做在所有搜索引擎中排名靠前是比較困難的,所謂的 SEO 大多說針對單一的搜索引擎,並且國內外以 google 為目的 SEO 占多數。需要注意的是, SEO 是一個長期係統的過程,根據網上的經驗大概是 3-6 個月才能看到成果,所以做 SEO 一定要有恒心。

SEO 隻是網站推廣的一種模式,且是省錢的一種方式。如果有足夠的資源,沒有必要把網站的所有精力都放在 SEO 上。據我所知,很多大型的網站,是沒有專門做 SEO 的部門的。所以,對於 SEO 要有持有客觀的認識,不迷信也不盲從。

OK ,現在我以站長小白的身份,一步一步講解網站的 SEO

準備工作

立誌成為站長的前提,是要有站。那就需要購買域名和空間。其實在我們購買域名和空間之前, SEO 已經開始了。

       選擇一個好記的,有意思,和網站定位有關的域名,對人或者搜索引擎都是一件好事。

       比如專門做 SEO 的網站 https://www.seowhy.com https://www.seo-ceo.com ,選擇的域名就很好體現了 SEO 的信息和網站的定位。而比我的小站 https://www.hehexiao.com 就是一個比較失敗的域名,因為通過域名很難明白這個站點的定位是什麼?也許 baidu 可以理解為“嗬嗬笑”,勉強能和笑話網站掛上鉤,但是 google 就歇菜了,不理解域名是啥意思。

穩定的空間,保證提供不間斷的服務,這是非常重要。如果服務中斷,而搜索引擎爬蟲正在爬頁麵,就會嚴重影響我們的網站在搜索引擎內的評分,其後果就是之前做的 SEO 優化白白打了水漂,辛辛苦苦幾十年一夜回到解放前,所以穩定的空間很重要。

被搜索引擎收錄

       域名有了,空間也有了,站也好了。剩下的工作就是網站推廣了,我們用免費推廣方式 -SEO

談網站 SEO 優化,是有前提,我們的網站必須被搜索引擎收錄,以便搜索引擎能夠抓取我們站的內容,對網站內容進行索引。這樣用戶在使用搜索引擎搜索時才可能找到我們的站。所以如果搜索引擎沒有被收錄我們的站,那麼談 SEO 就是天方夜譚,癡人說夢了。

被搜索引擎收錄的方式有兩種:

       1 :等待被搜索引擎發現並收錄,這個時間可能很長,關鍵要看我們的站的推廣程度,或者我們有足夠的外部鏈接。隻有這樣搜索引擎才有可能從別的站上發現我們的站的鏈接,才能收錄下來我們的站。持續發展外部鏈接,是 SEO 一直堅持的目標,不過對於剛剛成立不久的站來說,首要任務是讓搜索引擎找到自己,所以與其這樣被動等待,不如主動出擊。

       2 :把自己的網址,登錄到搜索引擎,提交方式很簡單,就是把自己首頁提交給搜索引擎,如果我們的站點足夠穩定,提交後不長時間就可生效。看一下提交到 google 注冊信息。

      

填寫內容還是很簡單,添加網址的地方,注意一下,如果我們有多個域名,這個地方最好填寫主域名,然後用其他域名跳轉到這個域名下,評論填寫網站的關鍵字,輸入驗證碼,點擊添加網址即可。過程就這麼簡單。添加後,我們怎麼發現 google 的搜索引擎爬取過我們的站點那?方法很簡單,看一下訪問日誌就可以了,比如 apache 的訪問日誌中有如下類似的信息

GET / HTTP/1.1
Host: example.com
Connection: Keep-alive
Accept: */*
From: googlebot(at)googlebot.com
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)
Accept-Encoding: gzip,deflate

就說明 googlebot 已經光臨我們的站了,由抓取到建立索引,然後再到用戶搜索到是需要一個過程的。所以,再過 1-2 天在 google 中,搜索 site:www.hehexiaocom www.hehexiao.com 替換成你的域名,看看是否已經可以成功的在 google 上搜索到我們的站。不過這是老土的方法,我建議你注冊一個 gongle 站點管理員工具去,非常有用。

       以下是主流搜索引擎的登錄網址

百度: https://www.baidu.com/search/url_submit.html
Google
https://www.google.com/intl/zh-CN/add_url.html
微軟 Live https://search.msn.com.cn/docs/submit.aspx
網易 - 有道: https://tellbot.yodao.com/report

 

       有些搜索引擎為了防止惡意登錄,當用戶登錄後網址後,搜索引擎都會返回驗證文件,比如,這個文件內的內容基本上一串 md5 文件,需要把這個文件上傳的根目錄,通過 https://www.hehexiao.com/xxxx.html 可以訪問,然後點擊驗證之類的按鈕,這樣驗證就通過,這樣搜索引擎就可以收錄了你的站。

       對於新站,百度一般需要一周到一個月的時間才能在搜索結果上展示, Google 則是 3 天到一周。一般情況下,你從搜索引擎網站登錄入口提交網址兩天後,可以在網站日誌裏看到搜索引擎機器人或百度蜘蛛過來抓取網頁。

       作為推廣的一種方式,我們也需要把網站提交到一些目錄網站比如, yahoo 目錄, domz 目錄。不過他們對提交網站都有限製,比如說訪問量,內容等。新站很難能在初次提交就可以成功的收錄。不過站發展起來後,是需要提交到這些網站。

       注意 在做域名解析時,應該設置一個不帶 www 的域名。這樣,當用戶使用不帶 www 的域名時,可以正常訪問我們的網站。

SEO 時需要正確處理帶 www 和不帶 www 域名的關係:

1 :在搜索引擎看來,帶 www 和不帶 www URL 是不同的兩個 URL ,當它們指向同一個網站時,會讓搜索引擎不懂應該選擇哪一個 URL 作為主要的。所以,我們建議部分符合條件的主機采用 301 重定向進行 URL 標準化設置。

2 :如果你的主機不支持 301 重定向,把首頁的所有鏈接采用絕對地址的鏈接形式也可以很好解決這個問題。

3 :帶 www 和不帶 www 的域名對搜索引擎是同等的,任意選擇其中一個作為主域名,在內部鏈接和友情鏈接時,都使用主域名,這樣不會使 PR 值分散。

Robot 協議

       被搜索引擎收錄後,搜索引擎的蜘蛛程序就可以抓取網站內容了。我們站點上有很多內容,搜索引擎是如何找到和抓取的那?如果我希望站上所有內容都能被搜索引擎抓取還好說點,但是如果有些內容不想讓搜索引擎抓取怎麼辦?其實搜索引擎是按一定規則進行站點內容抓取的,這個規則就是 robot 協議。

我們可以在 robot 協議中,指定搜索引擎不能抓取的目錄和文件等信息,比如

User-agent:*

Disallow:/admin/

Disallow:/facebook/

Disallow:/xiaonei/

Disallow:/51/

Disallow:/wifi/

SiteMap: https://www.hehexiao.com/sitemap.xml

以上信息是對所有的搜索引擎有效,在 User-agent 處設置,為 * 時表示全部搜索引擎有效,如果隻想對特定搜索引擎有效,可以單獨列出他們,不能執行下麵的操作,比如 taobao 的屏蔽百度 robot 協議就是,

User-agent: Baiduspider

Disallow: /

Disallow 是不能抓取的目錄或者文件,上麵的例子中,是設置所有搜索引擎不能抓取 /admin,facebook,xiaonei,51,wifi 等幾個目錄。

Sitemap ,是網站地圖,下麵 sitemap 會詳細介紹。

網站支持 robot 協議,其實很簡單,我們把上麵的內容寫到 robots.txt (全部小寫)文件內,並把這個文件放到網站根目錄即可,通過比如 https://www.hehexiao.com/robots.txt 訪問到就可以,簡單吧。對於 robot 也許會有這些困惑的問題。

1 :如果我們的網站上所有內容都希望搜索引擎抓取到,不設置 robot 協議可以嗎?

需要說明一點,設置不設置 robots.txt 並不影響搜索引擎對網站許可內容的抓取。但是我們還是建議網站最好設置 robots.txt 文件,因為搜索引擎抓取網站時,第一個抓取的頁麵就是 robots.txt 文件,如果這個文件不存在,搜索引擎訪問時,服務器上就會有一條 404 的錯誤日誌,多個搜索引擎抓取頁麵信息時,就會產生很多的 404 錯誤。所以,即使什麼內容都不寫,最好也創建一個 robots.txt 文件放到網站的根目錄下。

2 :我們的網站那些文件目錄一般不需要搜索引擎抓取?

設置不被搜索引擎抓取的文件目錄,比如後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片,都是沒有必要讓搜索引擎抓取。當然針對不同業務的網站,需要結合自己的業務,限製搜索引擎對一些頁麵抓取,像一些電子商務的網站,購物車,後台管理頁麵,包含地址信息的頁麵是不能設置為可以被搜索引擎抓取的。

3 :引入搜索引擎後,會對我們的服務器有何影響?

浪費我們的一些帶寬資源,服務器資源。正所謂天下沒有免費的午餐,如果我們想推廣站點,多少需要付出些代價。

sitemap (站點地圖協議)

搜索引擎的抓取程序通常會通過網站內部和其他網站上的鏈接查找我們的站點網頁,如果我們的站點是動態生成的,或者靜態頁麵之間沒有互相連接,那麼搜索引擎的抓取程序就不能完全抓取我們站點內容。 Robot 協議解決隻是限製搜索引擎對特定目錄的訪問,並沒有告訴搜索引擎,我們站上有多少內容需要被抓取。

Sitemap- 站點地圖協議,正好滿足這方便的需求。通過 sitemap 可以讓搜索引擎全麵收錄我們的站點網頁地址,了解我們的站點網頁地址的權重分布,了解你的站點內容更新情況。

Sitemap 的結構也是很簡單, sitemap 可以為 html 格式,也是為 xml 格式。 Html 格式就是把網站上所有訪問 URL 羅列到一個文件內即可。這種形式不能告訴搜索引擎站點頁麵的權重分布,也不能告訴搜索引擎站點內容的更新情況。所以大多數支持 Sitemap 協議的網站都是 XML 格式描述 sitemap XML 格式的 Sitemap 一共用到 6 個標簽,其中關鍵標簽包括鏈接地址、更新時間、更新頻率和索引優先權。

比如我的網站嗬嗬笑話網( https://www.hehexiao.com )的 sitemap( 部分 ) 例子

<urlset xsi:schemaLocation="https://www.sitemaps.org/schemas/sitemap/0.9 https://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">

<url>

<loc>https://www.hehexiao.com/</loc>

<lastmod>2009-07-13T04:20-08:00</lastmod>

<priority>1.00</priority>

<changefreq>daily</changefreq>

</url>

<url>

<loc>https://www.hehexiao.com/about.php</loc>

<lastmod>2009-07-13T04:20-08:00</lastmod>

<priority>0.80</priority>

<changefreq>daily</changefreq>

</url>

</urlset>

標簽含義如下

1 changefreq: 頁麵內容更新頻率,可以為 "always", "hourly", "daily", "weekly", "monthly", "yearly" ,意思表示“隨時更新”,“按小時更新”,“按天更新”,“按周更新”,“按月更新”,“按年更新”,合理設置此標簽,有利於增加搜索引擎索引效果,並可以有效減少服務器壓力。比如對於時常更新的內容,此項設置為 ”always” ,對於很長時間不更新的內容,可以設置為 ”yearly”

2 lastmod: 頁麵最後修改時間,非必填寫項,搜索引擎參考此項並結合changefreq 標簽,判斷是否需要重新抓取loc 指向的內容。

3 loc: 頁麵永久鏈接地址, 可以為靜態頁麵,也可以為動態頁麵。

4 priority: 相對於其他頁麵的優先權,值的範圍是0.0-1.0 之間,一般首頁我們設置為1.0 分,二級頁麵0.8 分,詳情頁0.64 分,依次遞減,來標明網站的頁麵優先級。這個值的設置與網站PR 沒有任何關係,僅僅是標示站點頁麵之間優先權,所以不要把所有的值都設置為1.0 ,即使所有的頁麵都很重要,也不要這樣設置,如果都設置為1.0 ,其實和沒設道理是一樣的。

5 url: 是前4 個標簽的父標簽,每個站點鏈接,都需要在一個單獨的url 節點內,sitemap 文件的主體就是有多個url 標簽組成的。

6 urlset: 5 個標簽的父標簽,sitemap 的根節點,主要作用是指定解析sitemapxml 的描述文件。

    根據以上信息,我們很容易,編寫一個搜索引擎友好的sitemap.xml 文件。編寫好後怎麼讓搜索引擎找到sitemap 文件那?是不是像robots.txt 文件一樣,放到網站根目錄下了事,其實並不是這樣,我們要主動告訴搜索引擎,我們的站點支持sitemap ,並告訴搜索引擎sitemap.xml 所在位置,告訴搜索引擎的方法有兩種:

    1 :在robots.txt 文件中,設置sitemap

    SiteMap: https://www.hehexiao.com/sitemap.xml

       注意 sitemap.xml 要寫訪問的全路徑,不能寫相對路徑。

       2 :自己手工到支持 sitemap 的站點去注冊,這樣的好處是,注冊以後,我們可以了解到搜索引擎抓取 sitemap.xml 的時間,時間間隔, url 錯誤數等信息,並可以手工設置搜索引擎抓取的頻率,速度等選項,這是第一種方式所不能提供的,如下圖所示,這就是嗬嗬笑話網 ( https://www.hehexiao.com ) 注冊到 google 後的,查看到的關於 sitemap.xml 的信息,關於這個 google 網站管理員工具使用,可以參考下麵的文檔。

       當然自己手工提交 sitemap.xml 時,需要把 google 的驗證文件,放到站點的根目錄,比如我的驗證文件 google8f236e839269a6db.html 。如果我們的站點,提供 wap 服務,可以單獨生成一個描述 wap sitemap.xml 文件,單獨提交到 google 搜索引擎, google 搜索引擎會區分普通頁麵和 wap 頁麵的,當然也可以區分圖片等信息。

       在中文搜索上,百度占據了市場的大部分份額,所以在中國的主要搜索引擎應該是 baidu ,隻能說值得慶幸的是,百度也支持 sitemap ,數據格式與 google 的格式一樣,隻是百度給它起了個新名字 < 互聯網論壇收錄開發協議 > ,可以通過以下鏈接,提交我們站點的 sitmap.xml

https://news.baidu.com/newsop.html

目前主流的搜索引擎都已經支持 sitemap ,比如 Google Yahoo Ask MSN( 新版的 bing)

注意:在 robots.txt 文件中,設置 Sitemap: https://www.hehexiao.com/Sitemap.xml ,百度並不支持這種寫法,百度要求 sitemap 文件的名字必須為 sitemap_baidu.xml ,這點可真夠變態的。

另外一個需要注意的是Sitemap 必須為utf-8 編碼格式。

 

以上內容大部分來自互聯網,內容的具體出處無法找到,如果您認為以上內容侵害了您的版權,請及時聯係我,我會在第一時間刪除。聯係e-mail: ugg_xchj#hotmail.com 把#替換為@。

轉帖請注明: 逸學堂 https://blog.csdn.net/ugg/archive/2009/07/15/4351349.aspx

 

全文下載:https://download.csdn.net/source/1491823

 

參考資料
https://www.seowhy.com/
https://www.dunsh.org/
https://www.seo-ceo.com.cn/
https://www.hehexiao.com

 

最後更新:2017-04-02 03:42:38

  上一篇:go 一步一步SEO 之奇淫異術
  下一篇:go 基於xfire的web service開發例子