閱讀189 返回首頁    go 火車采集器


火車采集器V9.2起將支持Python插件

火車采集器V9.2起將支持Python插件

作者:小文 發布於:2016-5-26 9:25 Thursday 分類:官方公告

除了支持PHP,C#插件,最近火車采集器終於又迎來了一個新的插件,Python插件。用戶可以在自己的Python插件中,修改html代碼,修改最終采集結果,可以實現更多自己的想法。python插件支持2.7和3.x版本,采集器默認自帶2.7和3.4的示例代碼,用戶隻需要稍微修改即可以完成自己的功能。Python插件功能將在V9.2版本中集成,馬上就能和大家見麵了。

更多插件及開發,請加QQ群 火車頭開放平台 149855485

 

以下是3.4的python插件示例代碼

 

import sys,importlib
from urllib import parse
import json

if len(sys.argv)!= 5:
    print(len(sys.argv))
    print("命令行參數長度不為5")
    sys.exit()
else:
    LabelCookie = parse.unquote(sys.argv[1])
    LabelUrl = parse.unquote(sys.argv[2])
    #PageType為List,Content,Pages分別代表列表頁,內容頁,多頁http請求處理,Save代表內容處理
    PageType=sys.argv[3]
    SerializerStr = parse.unquote(sys.argv[4])
    if (SerializerStr[0:2] != '''{"'''):
        file_object = open(SerializerStr)
        try:
            SerializerStr = file_object.read()
        finally:
            file_object.close()
    LabelArray = json.loads(SerializerStr)

#以下是用戶編寫代碼區域
    if(PageType=="Save"):
        if(LabelArray['標題']):
            LabelArray['標題']='這是Python插件處理的標題'
    else:
        LabelArray['Html']='當前頁麵的網址為:'+ LabelUrl +"\r\n頁麵類型為:" + PageType + "\r\nCookies數據為:"+LabelCookie+"\r\n接收到的數據是:" + LabelArray['Html']
       

#以上是用戶編寫代碼區域
    LabelArray = json.dumps(LabelArray)
    print(LabelArray)

標簽: 插件 Python 采集器

相關日誌:

福利來啦:6.8折優惠碼太給力!

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具,2016年讓大數據更接地氣!

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 火車頭開放平台QQ群正式成立 | 號外:火車瀏覽器打碼插件開源開放了»

發表評論:

最後更新:2017-05-09 01:06:04

  上一篇:go 網站抓取精靈火車采集器的多頁抓取教程
  下一篇:go 號外:火車瀏覽器打碼插件開源開放了