Python爬蟲實戰（2）：爬取京東商品列表

1，引言

在上一篇Python爬蟲實戰：爬取Drupal論壇帖子列表，爬取了一個用Drupal做的論壇，是靜態頁麵，抓取比較容易，即使直接解析html源文件都可以抓取到需要的內容。相反，JavaScript實現的動態網頁內容，無法從html源代碼抓取需要的內容，必須先執行JavaScript。

我們在Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態HTML內容一文已經成功檢驗了動態網頁內容的抓取方法，本文將實驗程序進行改寫，使用開源Python爬蟲規定的標準python內容提取器，把代碼變得非常簡潔。

2，技術要點

我們在多個文章說過本開源爬蟲的目的：節省程序員的時間。關鍵是省去編寫提取規則的時間，尤其調試規則很花時間，節省時間問題在1分鍾快速生成用於網頁內容提取的xslt一文已經有了解決方案，本文我們用京東網站作為測試目標，而電商網站都有很多動態內容，比如，產品價格和評論數等等，往往采用後加載的方式，在html源文檔加載完成以後再執行javascript代碼把動態內容填寫上，所以，本案例主要驗證動態內容的抓取。

另外，本文案例沒有使用GooSeeker爬蟲API，而是把MS謀數台生成的xslt腳本程序保存在本地文件中，在程序運行的時候把文件讀出來注入到gsExtractor提取器。後續會有專門的案例演示 API的使用方法。

總之，本示例兩個技術要點總結如下：

從本地文件讀取xlst程序
把xlst注入到提取器gsExtractor中，利用xslt從網頁上一次提取性多個字段內容。

3，Python源代碼

# -*- coding:utf-8 -*- 
# 爬取京東商品列表， 以手機商品列表為例
# 示例網址：https://list.jd.com/list.html?cat=9987,653,655&page=1&JL=6_0_0&ms=5
# crawler_jd_list.py
# 版本: V1.0

from urllib import request
from lxml import etree
from selenium import webdriver
from gooseeker import gsExtractor
import time

class Spider:
    def __init__(self):
        self.scrollpages = 0
        self.waittime = 3
        self.phantomjsPath = 'C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe'

    def getContent(self, url):
        browser = webdriver.PhantomJS( executable_path = self.phantomjsPath )
        browser.get(url)
        time.sleep(self.waittime)
        html = browser.execute_script("return document.documentElement.outerHTML")
        doc = etree.HTML(html)
        jdlistExtra = gsExtractor()
        jdlistExtra.setXsltFromFile("jd_list.xml")
        output = jdlistExtra.extract(doc)
        return output

    def saveContent(self, filepath, content):
        file_obj = open(filepath, 'w', encoding='UTF-8')
        file_obj.write(content)
        file_obj.close()

url = 'https://list.jd.com/list.html?cat=9987,653,655&page=1&JL=6_0_0&ms=5'
jdspider = Spider()
result = jdspider.getContent(url)
jdspider.saveContent('京東手機列表_1.xml', str(result))

源代碼下載位置請看文章末尾的GitHub源。

4，抓取結果

運行上麵的代碼，就會爬取京東手機品類頁麵的所有手機型號、價格等信息，並保存到本地文件“京東手機列表_1.xml”中。我們用瀏覽器打開這個結果文件，會看到如下的內容：

5，相關文檔

Python即時網絡爬蟲項目: 內容提取器的定義

6，集搜客GooSeeker開源代碼下載源

GooSeeker開源Python網絡爬蟲GitHub源

7，文檔修改曆史

2016-06-06：V1.0

若有疑問可以或

最後更新：2017-01-09 14:08:09

Python爬蟲實戰（2）：爬取京東商品列表

1，引言

2，技術要點

3，Python源代碼

4，抓取結果

5，相關文檔

6，集搜客GooSeeker開源代碼下載源

7，文檔修改曆史

上一篇： 2016年收割數據大片【篇章一】數據價值篇

下一篇： DS打數機采集數據

相關內容

熱門內容

最新內容

Python爬蟲實戰（2）：爬取京東商品列表

1，引言

2，技術要點

3，Python源代碼

4，抓取結果

5，相關文檔

6，集搜客GooSeeker開源代碼下載源

7，文檔修改曆史

上一篇： 2016年收割數據大片【篇章一】 數據價值篇

下一篇： DS打數機采集數據

相關內容

熱門內容

最新內容

上一篇： 2016年收割數據大片【篇章一】數據價值篇