閱讀892 返回首頁    go gooseeker集搜客


DS打數機采集數據


一、兩種操作方式

下麵介紹手工啟動DS打數機采集數據的兩種方法,如下圖(自動啟動是爬蟲群模式,在後麵的教程講解)。


二、操作步驟

方式一:存規則,爬數據

從MS謀數台上啟動爬蟲,做完規則並且存規則以後,點擊工具條上的“爬數據”,這相當於測試一下規則是否合適,所以運行的是測試窗口,菜單項較少,主要用來驗證抓取規則的正確性,詳細參看第三節:窗口類型。

1.1,用MS謀數台做好規則並保存。

1.2,再點擊MS謀數台工具欄右端的“爬數據”按鈕,就會彈出DS打數機窗口,剛剛做好規則的時候,隻有一個網址可供采集,就是樣本頁麵的網址。


方式二:DS打數機單搜/集搜

單獨把DS打數機運行起來(如果是GS爬蟲瀏覽器版,工具條上有DS打數機按鈕),就能看到規則列表,每個規則都有“單搜”和“集搜”按鈕。單搜和集搜的區別參看《集搜客專有名詞:單搜和集搜》,顧名思義,單搜隻有一個爬蟲窗口,集搜可以運行多個爬蟲窗口。

2.1,打開DS打數機。

2.2,搜索主題名,可以用*模煳匹配(前、後、中都可以含有*號)。

2.3,右擊主題名,選擇彈出菜單“統計線索”,可以看到有多少個線索等待抓取,線索就是網址,是網絡爬蟲的爬取路線。

2.4,點擊單搜,輸入線索數量(<=待抓取線索),右側的瀏覽器就開始采集數據。如果點擊集搜,會另外彈出一個新的DS打數機窗口。注意觀察“控製麵板”上的窗口類型值。


2.5,遇到提示“沒有線索了,可添加新線索或者激活已有的線索”,說明所有網址都采完一遍了。


2.6,如果需要再次采集,右擊主題名可以選擇菜單“添加線索”或者“激活線索”。


三、DS打數機窗口類型介紹

DS打數機負責采集網頁數據,根據不同的使用方式分為四種窗口類型,請注意鑒別使用

  1. 管理窗口:在GS爬蟲瀏覽器的工具條上點擊“DS打數機”按鈕,或者在火狐瀏覽器中選擇菜單“工具”-〉“DS打數機”,這樣啟動起來的是管理窗口,有最全的菜單和按鈕,所有的配置操作應該在這個窗口下進行;
  2. 試抓窗口:點擊MS謀數台上的“爬數據”按鈕,或者在GS爬蟲瀏覽器“定義規則”狀態下點擊工具條上的“爬數據”按鈕;
  3. 集搜窗口:點擊DS打數機上的“集搜”按鈕啟動;
  4. 爬蟲群窗口:選擇DS打數機的菜單“爬蟲群”,先“配置”爬蟲群以後,再“運行”;

各個窗口的分布結構是一樣的,隻是對不同部分做了隱藏。簡介如下:

  • 頂部是菜單欄,用於設置和控製采集;
  • 左側是操作窗口,顯示主題名和啟動采數據,雙擊右邊沿小三角圖標可以隱藏or展開;
  • 右側是內嵌的瀏覽器,當采集數據的時候,在這裏可以看到一頁頁網頁自動顯示出來;
  • 底部是日誌窗口,會記錄采集失敗的情況,雙擊上邊沿小三角圖標可以隱藏or展開;



上篇文章:《采集網頁數據》                                                                             下篇文章:《xml轉換為excel》



若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:09

  上一篇:go Python爬蟲實戰(2):爬取京東商品列表
  下一篇:go 模擬真人行為的反爬蟲的一些研究