779
gooseeker集搜客
什麼都不懂的小白,請看這裏!
集搜客想讓你最便捷地獲取數據,讓你有“要什麼就抓什麼”的感覺,要記住核心要領:
第一步:先建立一個箱子,這裏要存儲你想抓的內容(術語叫:整理箱)
第二步:接著告訴集搜客程序,網頁上哪個內容需要丟到箱子中(術語叫:映射)
集搜客能自動生成抓取規則。不用從技術角度去規劃怎樣循環,集搜客能自動處理這些技術過程。掌握了這兩個要領,我們看看細節吧。
什麼都不懂的小白們,一開始接觸此類軟件都會覺得好難啊,怎麼這麼多專業名詞啊,我好暈啊!!!嘛~不要急呐~新技能的get哪會那麼容易呢,玩個遊戲要玩好都需要時間,更何況咱們還是做這麼有技術含量的事呢。廢話不多說,本文就是為了幫助小白建立學習的信心,隻要你認真看完本文,成功抓取樣本數據,你也就入門啦!撒花撒花~
注釋:本文演示的抓取規則,可到資源庫下載學習:集搜客怎樣抓取網頁數據演示規則,下載運行即可抓取樣本數據。
一、製作采集規則
如果把“抓取數據”比喻成“做一道數學題”的話,“規則”就是你要得到“計算結果”(就是數據)之前列出的“方程式”。後麵的很多概念請好好看圖哦,圖上麵都有標明的。
1,輸入目標抓取網址,並給規則起個名
圖1
第一步:將“要抓取的網址”輸入到MS謀數台的網址欄按ENTER鍵加載,底部瀏覽器窗口就會把網頁加載顯示出來。
第二步:網頁顯示後,在“命名主題工作台”處輸入主題名並 查重以確定主題名是否可用。
2,新建整理箱
圖2
第一步: 點擊新建按鈕,在彈出的窗口中輸入想要命名的整理箱名稱。
第二步: 在整理箱中創建抓取內容,右擊整理箱名稱選擇 “添加→包容”(表示抓取內容包含在整理箱中)。繼續添加的話,選擇“包容”就是建立多層次的整理箱結構,選擇“其前/其後”就是建立同級前後順序的抓取內容。
第三步:勾選“關鍵內容”,選擇整理箱中 重要且確定會在網頁上出現的內容 勾上“關鍵內容”。
3,將網頁內容映射到整理箱
圖3
第一步: 在瀏覽器窗口中點擊目標數據——“商品名”(Apple/蘋果iphone 6s)。
第二步: 謀數台會自動定位到“商品名”的網頁標簽節點(A節點)。
第三步: 雙擊展開A節點,找到#text(文本信息通常儲存在#text中)。
第四步: 點擊#text,可在 “文本窗口” 內容中看到text的值;
第五步: 右擊#text做 “內容映射” 到商品名稱。
抓取“商品價格”和抓取“商品名稱”的操作步驟相同。
4,使用 樣例複製 功能實現批量獲取
圖4
第一步:點擊容器節點 整理箱名。
第二步:勾選啟用,啟用 樣例複製 功能。
第三步:分別找到第一個商品 和 第二個商品 對應的網頁標簽節點。
第四步:右擊 第一個商品對應節點 樣例複製功能中的 “第一個” 映射到 樣例1。
第五步:右擊 第二個商品對應節點 樣例複製功能中的 “第二個” 映射到 樣例2。
5,規則測試成功後存規則
圖5
第一步:點擊 測試 按鈕可以看到抓取的內容,並且檢查數據是否完整準確。
第二步:數據無誤的話,點擊 存規則,規則就會被保存到服務器中。
第三步:保存規則成功後,點擊 爬數據 按鈕就開始采集了。
二、啟動打數機爬數據
1,爬數據
兩種啟動方法(兩者選一即可):第一種:直接點擊MS裏麵 “存規則” 按鈕後麵的 “爬數據” 按鈕。
第二種:打開 DS打數機,在 “搜索框” 輸入 主題名(可使用通配符*輔助搜索)搜索後點擊單搜開始抓取數據。
第一種是快捷方式,窗口顏色不一樣,功能比較少,第二種是通用方式。
圖6
2,看結果
數據以XML格式 默認存放在C盤用戶文件夾的DataScraperWorks 中,可自定義更改結果存儲路徑。
同時集搜客提供將XML批量導入EXCEL的工具。導入excel之後的數據,如圖6所示。
圖7
本文主要是給什麼都不懂的小白找一點學習的感覺,但是要真正解決需求,還是得從初級教程→中級教程→高級教程循序漸進地學習。因為很多需求,光靠上麵那些步驟是沒法搞定的,需要更多的操作。如果看懂了,就可以開始著手試試啦~
最後更新:2017-01-09 14:08:12