Python網頁信息采集：使用PhantomJS采集淘寶天貓商品內容

1，引言

最近一直在看Scrapy 爬蟲框架，並嚐試使用Scrapy框架寫一個可以實現網頁信息采集的簡單的小程序。嚐試過程中遇到了很多小問題，希望大家多多指教。

本文主要介紹如何使用Scrapy結合PhantomJS采集天貓商品內容，文中自定義了一個DOWNLOADER_MIDDLEWARES，用來采集需要加載js的動態網頁內容。看了很多介紹DOWNLOADER_MIDDLEWARES資料，總結來說就是使用簡單，但會阻塞框架，所以性能方麵不佳。一些資料中提到了自定義DOWNLOADER_HANDLER或使用scrapyjs可以解決阻塞框架的問題，有興趣的小夥伴可以去研究一下，這裏就不多說了。

2，具體實現

2.1，環境需求

需要執行以下步驟，準備Python開發和運行環境：

Python--官網下載安裝並部署好環境變量（本文使用Python版本為3.5.1）
lxml-- 官網庫下載對應版本的.whl文件，然後命令行界麵執行 "pip install .whl文件路徑"
Scrapy--命令行界麵執行 "pip install Scrapy"，詳細請參考《Scrapy的第一次運行測試》
selenium--命令行界麵執行 "pip install selenium"
PhantomJS -- 官網下載

上述步驟展示了兩種安裝：1，安裝下載到本地的wheel包；2，用Python安裝管理器執行遠程下載和安裝。注：包的版本需要和python版本配套

2.2，開發和測試過程

首先找到需要采集的網頁，這裏簡單找了一個天貓商品，網址https://world.tmall.com/item/526449276263.html，頁麵如下：

然後開始編寫代碼，以下代碼默認都是在命令行界麵執行

1)，創建scrapy爬蟲項目tmSpider

E:\python-3.5.1>scrapy startproject tmSpider

2)，修改settings.py配置

更改ROBOTSTXT_OBEY的值為False；
關閉scrapy默認的下載器中間件；
加入自定義DOWNLOADER_MIDDLEWARES。

配置如下：

DOWNLOADER_MIDDLEWARES = {
    'tmSpider.middlewares.middleware.CustomMiddlewares': 543,
    'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None
}

3)，在項目目錄下創建middlewares文件夾,然後在文件夾下創建middleware.py文件，代碼如下：

# -*- coding: utf-8 -*-

from scrapy.exceptions import IgnoreRequest
from scrapy.http import HtmlResponse, Response

import tmSpider.middlewares.downloader as downloader

class CustomMiddlewares(object):
    def process_request(self, request, spider):
        url = str(request.url)
        dl = downloader.CustomDownloader()
        content = dl.VisitPersonPage(url)
        return HtmlResponse(url, status = 200, body = content)
    
    def process_response(self, request, response, spider):
        if len(response.body) == 100:
            return IgnoreRequest("body length == 100")
        else:
            return response

4)，使用selenium和PhantomJS寫一個網頁內容下載器，同樣在上一步創建好的middlewares文件夾中創建downloader.py文件，代碼如下：

# -*- coding: utf-8 -*-
import time
from scrapy.exceptions import IgnoreRequest
from scrapy.http import HtmlResponse, Response
from selenium import webdriver
import selenium.webdriver.support.ui as ui 

class CustomDownloader(object):
    def __init__(self):
        # use any browser you wish
        cap = webdriver.DesiredCapabilities.PHANTOMJS
        cap["phantomjs.page.settings.resourceTimeout"] = 1000
        cap["phantomjs.page.settings.loadImages"] = True
        cap["phantomjs.page.settings.disk-cache"] = True
        cap["phantomjs.page.customHeaders.Cookie"] = 'SINAGLOBAL=3955422793326.2764.1451802953297; '
        self.driver = webdriver.PhantomJS(executable_path='F:/phantomjs/bin/phantomjs.exe', desired_capabilities=cap)
        wait = ui.WebDriverWait(self.driver,10)
    
    def VisitPersonPage(self, url):
        print('正在加載網站.....')
        self.driver.get(url)
        time.sleep(1)
        # 翻到底，詳情加載
        js="var q=document.documentElement.scrollTop=10000"
        self.driver.execute_script(js)
        time.sleep(5)
        content = self.driver.page_source.encode('gbk', 'ignore')
        print('網頁加載完畢.....')
        return content

    def __del__(self):
        self.driver.quit()

5) 創建爬蟲模塊

在項目目錄E:\python-3.5.1\tmSpider，執行如下代碼：

E:\python-3.5.1\tmSpider>scrapy genspider tmall 'tmall.com'

執行後，項目目錄E:\python-3.5.1\tmSpider\tmSpider\spiders下會自動生成tmall.py程序文件。該程序中parse函數處理scrapy下載器返回的網頁內容，采集網頁信息的方法可以是：

使用xpath或正則方式從response.body中采集所需字段
通過gooseeker api獲取的內容提取器實現一站轉換所有字段，而且不用手工編寫轉換用的xpath（如何獲取內容提取器請參考python使用xslt提取網頁數據）,代碼如下：

# -*- coding: utf-8 -*-
import time
import scrapy

import tmSpider.gooseeker.gsextractor as gsextractor

class TmallSpider(scrapy.Spider):
    name = "tmall"
    allowed_domains = ["tmall.com"]
    start_urls = (
        'https://world.tmall.com/item/526449276263.htm',
    )
    
    # 獲得當前時間戳
    def getTime(self):
        current_time = str(time.time())
        m = current_time.find('.')
        current_time = current_time[0:m]
        return current_time

    def parse(self, response):
        html = response.body
        print("----------------------------------------------------------------------------")
        extra=gsextractor.GsExtractor()
        extra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e", "淘寶天貓_商品詳情30474","tmall","list")

        result = extra.extract(html)
        print(str(result).encode('gbk', 'ignore').decode('gbk'))
        #file_name = 'F:/temp/淘寶天貓_商品詳情30474_' + self.getTime() + '.xml'
        #open(file_name,"wb").write(result)

6)，啟動爬蟲

在E:\python-3.5.1\tmSpider項目目錄下執行命令

E:\python-3.5.1\simpleSpider>scrapy crawl tmall

輸出結果:

提一下，上述命令隻能一次啟動一個爬蟲，如果想同時啟動多個呢？那就需要自定義一個爬蟲啟動模塊了，在spiders下創建模塊文件runcrawl.py，代碼如下：

# -*- coding: utf-8 -*-

import scrapy
from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner

from tmall import TmallSpider
...
spider = TmallSpider(domain='tmall.com')
runner = CrawlerRunner()
runner.crawl(spider)
...
d = runner.join()
d.addBoth(lambda _: reactor.stop())
reactor.run()

執行runcrawl.py文件，輸出結果：

3，展望

以自定義DOWNLOADER_MIDDLEWARES調用PhantomJs的方式實現爬蟲後，在阻塞框架的問題上糾結了很長的時間，一直在想解決的方式。後續會研究一下scrapyjs，splash等其他調用瀏覽器的方式看是否能有效的解決這個問題。

4，相關文檔

Python即時網絡爬蟲：API說明

5，集搜客GooSeeker開源代碼下載源

GooSeeker開源Python網絡爬蟲GitHub源

6，文檔修改曆史

2016-06-30：V1.0

若有疑問可以或集搜客網絡爬蟲

最後更新：2017-01-09 14:08:11

Python網頁信息采集：使用PhantomJS采集淘寶天貓商品內容

1，引言

2，具體實現

2.1，環境需求

2.2，開發和測試過程

3，展望

4，相關文檔

5，集搜客GooSeeker開源代碼下載源

6，文檔修改曆史

上一篇：定位標誌精確采集範圍——以安居客租房采集為例

下一篇：采網址做層級采集——以大眾點評為例

相關內容

熱門內容

最新內容

Python網頁信息采集：使用PhantomJS采集淘寶天貓商品內容

1，引言

2，具體實現

2.1，環境需求

2.2，開發和測試過程

3，展望

4，相關文檔

5，集搜客GooSeeker開源代碼下載源

6，文檔修改曆史

上一篇： 定位標誌精確采集範圍——以安居客租房采集為例

下一篇： 采網址做層級采集——以大眾點評為例

相關內容

熱門內容

最新內容

上一篇：定位標誌精確采集範圍——以安居客租房采集為例

下一篇：采網址做層級采集——以大眾點評為例