閱讀372 返回首頁    go 火車采集器


火車頭數據采集平台二次開發SDK

火車頭數據采集平台二次開發SDK

作者:小文 發布於:2012-11-9 14:36 Friday 分類:官方公告

部分企業級用戶谘詢如何使用我們火車采集器的一些功能進行二次開發,我們提供了強大的開發SDK(火車頭采集框架測試源代碼.rar)。簡介如下:

開發框架主要提供無限級采集模塊。用戶可以通過它,快速生成具有強大采集能力的采集軟件。該框架包含以下功能

1.Http請求模塊
a.請求下載一個網頁或文件
b.提交數據到網站
c.解析源碼中的圖片鏈接
d.探測文件真實地址
2.文件下載模塊
類似火車采集器運行時顯示文件下載及進度的類庫,可以在界麵上顯示,也可以不顯示界麵運行.
3.無限級采集功能
類似火車采集器中的無限級采集模塊中的功能。標簽編輯部分支持通過采集得到數據和自定義格式的數據。提取數據的方式包含前後截取,正則提取和標簽組合。數據處理部分的功能如下
a.內容截取
b.純正則替換
c.隨機插入
d.HTML標簽排除
e.字符串替換
f.運行C#代碼
g.字符編/解碼
h.智能提取時間
i.Http頭信息提取
j.Http請求
k.簡繁轉換
l.內容添加前後綴
m.空內容缺省
n.補全單網址
o.提取第一張圖片
p.將結果轉化為火星文
q.自動轉化為拚音
r.自動摘要

下麵我來演示一下如何使用極少量的代碼,來實現一個簡單的采集程序。該SDK可以免費測試使用,如需要購買技術支持請聯係tech@locoy.com進行谘詢。

 

點擊查看原圖

如圖,該API調用火車采集器的無限級采集設置窗口,進行任務的配置。同時可以將所有的配置保存下來。對於編輯好的任務,可以直接點擊運行任務就可以運行。而這一切,隻需要少量的代碼就可以實現。附件中有該程序的源代碼。

 

以下是sdk的文檔截圖

點擊查看原圖

附件下載:
火車頭采集框架測試源代碼.rar 2.48MB

標簽: APi 二次開發

相關日誌:

福利來啦:6.8折優惠碼太給力!

網頁抓取工具帶你走進大數據營銷

玩轉網頁抓取工具,2016年讓大數據更接地氣!

網頁抓取工具透析大數據生態圈技術層

網頁抓取工具助力大數據基礎建設

« 新浪愛問共享資料下載插件 | 火車采集器v7新浪博客文章發布模塊(適合v7.7以前V7版本)»

評論:

高空作業平台
2012-11-27 12:35
這個實例挺好的呀
消費導航
2012-11-23 11:36
還是蠻不錯的自己開發

發表評論:

最後更新:2017-05-09 01:05:59

  上一篇:go 關於v7.6版本提示“本地驗證失敗”的解決辦法
  下一篇:go 關於部分服務器Head方法無法探測文件功能的解決辦法