Python爬蟲實戰（4）：豆瓣小組話題數據采集—動態網頁

1，引言

注釋：上一篇《Python爬蟲實戰（3）：安居客房產經紀人信息采集》，訪問的網頁是靜態網頁，有朋友模仿那個實戰來采集動態加載豆瓣小組的網頁，結果不成功。本篇是針對動態網頁的數據采集編程實戰。

Python開源網絡爬蟲項目啟動之初，我們就把網絡爬蟲分成兩類：即時爬蟲和收割式網絡爬蟲。為了適應各種應用場景，GooSeeker的整個網絡爬蟲產品線包含了四類產品，如下圖所示：

本實戰是上圖中的“獨立python爬蟲”的一個實例，以采集豆瓣小組討論話題(https://www.douban.com/group/haixiuzu/discussion?start=0 )信息為例，記錄整個采集流程，包括python和依賴庫的安裝，即便是python初學者，也可以跟著文章內容成功地完成運行。

2，Python和相關依賴庫的安裝

運行環境：Windows10

2.1，安裝Python3.5.2

官網下載鏈接: https://www.python.org/ftp/python/3.5.2/python-3.5.2.exe
下載完成後，雙擊安裝。
這個版本會自動安裝pip和setuptools，方便安裝其它的庫

2.2，Lxml 3.6.0

Lxml官網地址: https://lxml.de/
Windows版安裝包下載: https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
對應windows下python3.5的安裝文件為 lxml-3.6.0-cp35-cp35m-win32.whl
下載完成後，在windows下打開一個命令窗口,，切換到剛下載的whl文件的存放目錄，運行pip install lxml-3.6.0-cp35-cp35m-win32.whl

2.3，下載網頁內容提取器程序

網頁內容提取器程序是GooSeeker為開源Python即時網絡爬蟲項目發布的一個類，使用這個類，可以大大減少數據采集規則的調試時間，具體參看《Python即時網絡爬蟲項目: 內容提取器的定義》

下載地址: https://github.com/FullerHua/gooseeker/core/gooseeker.py
把gooseeker.py保存在項目目錄下

2.4，安裝selenium

pip install selenium

2.5，PhantomJS下載

下載地址 https://phantomjs.org/download.html
把下載得到的phantomjs-2.1.1-windows.zip解壓到本機的某個文件夾下
把解壓後的文件夾中的phantomjs.exe的完整路徑加文件名記錄下來，用來替換下麵代碼的 browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe') 這一行中的兩個單引號之間的內容。

3，網絡爬蟲的源代碼

# _*_coding:utf8_*_
# douban.py
# 爬取豆瓣小組討論話題

from urllib import request
from lxml import etree
from gooseeker import GsExtractor
from selenium import webdriver

class PhantomSpider:
    def getContent(self, url):
        browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe')
        browser.get(url)
        time.sleep(3)
        html = browser.execute_script("return document.documentElement.outerHTML")
        output = etree.HTML(html)
        return output

    def saveContent(self, filepath, content):
        file_obj = open(filepath, 'w', encoding='UTF-8')
        file_obj.write(content)
        file_obj.close()

doubanExtra = GsExtractor()   
# 下麵這句調用gooseeker的api來設置xslt抓取規則
# 第一個參數是app key，請到GooSeeker會員中心申請
# 第二個參數是規則名，是通過GooSeeker的圖形化工具: 謀數台MS 來生成的
doubanExtra.setXsltFromAPI("ffd5273e213036d812ea298922e2627b" , "豆瓣小組討論話題")  

url = "https://www.douban.com/group/haixiuzu/discussion?start="
totalpages = 5
doubanSpider = PhantomSpider()
print("爬取開始")

for pagenumber in range(1 , totalpages):
    currenturl = url + str((pagenumber-1)*25)
    print("正在爬取", currenturl)
    content = doubanSpider.getContent(currenturl)
    outputxml = doubanExtra.extract(content)
    outputfile = "result" + str(pagenumber) +".xml"
    doubanSpider.saveContent(outputfile , str(outputxml))

print("爬取結束")

運行過程如下:

將上麵的代碼保存到douban.py中，和前麵2.3步下載的提取器類gooseeker.py放在同一個文件夾中
打開Windows CMD窗口，切換當前目錄到存放douban.py的路徑(cd \xxxx\xxx)
運行 python douban.py

請注意：為了讓源代碼更整潔，也為了讓爬蟲程序更有通用性，抓取規則是通過api注入到內容提取器bbsExtra中的，這樣還有另外一個好處：如果目標網頁結構變化了，隻需通過MS謀數台重新編輯抓取規則，而本例的網絡爬蟲代碼不用修改。為內容提取器下載采集規則的方法參看《Python即時網絡爬蟲：API說明—下載內容提取器》。

4，爬蟲結果

在項目目錄下可以看到多個result**.xml文件，文件內容如下圖所示：

5，總結

因為信息采集規則是通過api下載下來的，所以，本案例的源代碼顯得十分簡潔。同時，整個程序框架變得很通用，因為最影響通用性的采集規則是從外部注入的。

6，集搜客GooSeeker開源代碼下載源

GooSeeker開源Python即時網絡爬蟲GitHub源

7，文檔修改曆史

2016-07-14：V1.0

若有疑問可以或集搜客網絡爬蟲

最後更新：2017-01-09 14:08:09

Python爬蟲實戰（4）：豆瓣小組話題數據采集—動態網頁

1，引言

2，Python和相關依賴庫的安裝

2.1，安裝Python3.5.2

2.2，Lxml 3.6.0

2.3，下載網頁內容提取器程序

2.4，安裝selenium

2.5，PhantomJS下載

3，網絡爬蟲的源代碼

4，爬蟲結果

5，總結

6，集搜客GooSeeker開源代碼下載源

7，文檔修改曆史

上一篇： Python即時網絡爬蟲項目啟動說明

下一篇： 2016年收割數據大片【篇章一】數據價值篇

相關內容

熱門內容

最新內容

Python爬蟲實戰（4）：豆瓣小組話題數據采集—動態網頁

1，引言

2，Python和相關依賴庫的安裝

2.1，安裝Python3.5.2

2.2，Lxml 3.6.0

2.3，下載網頁內容提取器程序

2.4，安裝selenium

2.5，PhantomJS下載

3，網絡爬蟲的源代碼

4，爬蟲結果

5，總結

6，集搜客GooSeeker開源代碼下載源

7，文檔修改曆史

上一篇： Python即時網絡爬蟲項目啟動說明

下一篇： 2016年收割數據大片【篇章一】 數據價值篇

相關內容

熱門內容

最新內容

下一篇： 2016年收割數據大片【篇章一】數據價值篇