892
gooseeker集搜客
DS打數機采集數據
一、兩種操作方式
下麵介紹手工啟動DS打數機采集數據的兩種方法,如下圖(自動啟動是爬蟲群模式,在後麵的教程講解)。
二、操作步驟
方式一:存規則,爬數據
從MS謀數台上啟動爬蟲,做完規則並且存規則以後,點擊工具條上的“爬數據”,這相當於測試一下規則是否合適,所以運行的是測試窗口,菜單項較少,主要用來驗證抓取規則的正確性,詳細參看第三節:窗口類型。
1.1,用MS謀數台做好規則並保存。
1.2,再點擊MS謀數台工具欄右端的“爬數據”按鈕,就會彈出DS打數機窗口,剛剛做好規則的時候,隻有一個網址可供采集,就是樣本頁麵的網址。
方式二:DS打數機單搜/集搜
單獨把DS打數機運行起來(如果是GS爬蟲瀏覽器版,工具條上有DS打數機按鈕),就能看到規則列表,每個規則都有“單搜”和“集搜”按鈕。單搜和集搜的區別參看《集搜客專有名詞:單搜和集搜》,顧名思義,單搜隻有一個爬蟲窗口,集搜可以運行多個爬蟲窗口。
2.1,打開DS打數機。
2.2,搜索主題名,可以用*模煳匹配(前、後、中都可以含有*號)。
2.3,右擊主題名,選擇彈出菜單“統計線索”,可以看到有多少個線索等待抓取,線索就是網址,是網絡爬蟲的爬取路線。
2.4,點擊單搜,輸入線索數量(<=待抓取線索),右側的瀏覽器就開始采集數據。如果點擊集搜,會另外彈出一個新的DS打數機窗口。注意觀察“控製麵板”上的窗口類型值。
2.5,遇到提示“沒有線索了,可添加新線索或者激活已有的線索”,說明所有網址都采完一遍了。
2.6,如果需要再次采集,右擊主題名可以選擇菜單“添加線索”或者“激活線索”。
三、DS打數機窗口類型介紹
DS打數機負責采集網頁數據,根據不同的使用方式分為四種窗口類型,請注意鑒別使用
- 管理窗口:在GS爬蟲瀏覽器的工具條上點擊“DS打數機”按鈕,或者在火狐瀏覽器中選擇菜單“工具”-〉“DS打數機”,這樣啟動起來的是管理窗口,有最全的菜單和按鈕,所有的配置操作應該在這個窗口下進行;
- 試抓窗口:點擊MS謀數台上的“爬數據”按鈕,或者在GS爬蟲瀏覽器“定義規則”狀態下點擊工具條上的“爬數據”按鈕;
- 集搜窗口:點擊DS打數機上的“集搜”按鈕啟動;
- 爬蟲群窗口:選擇DS打數機的菜單“爬蟲群”,先“配置”爬蟲群以後,再“運行”;
各個窗口的分布結構是一樣的,隻是對不同部分做了隱藏。簡介如下:
- 頂部是菜單欄,用於設置和控製采集;
- 左側是操作窗口,顯示主題名和啟動采數據,雙擊右邊沿小三角圖標可以隱藏or展開;
- 右側是內嵌的瀏覽器,當采集數據的時候,在這裏可以看到一頁頁網頁自動顯示出來;
- 底部是日誌窗口,會記錄采集失敗的情況,雙擊上邊沿小三角圖標可以隱藏or展開;
上篇文章:《采集網頁數據》 下篇文章:《xml轉換為excel》
若有疑問可以或

最後更新:2017-01-09 14:08:09