144 gooseeker集搜客

采集圖片網址並下載圖片——以途牛旅遊網為例

一、操作步驟

集搜客爬蟲不僅能抓到網頁上的文本、網址數據，還可以批量下載圖片到電腦中。無論是列表頁還是詳情頁上的圖片，隻要能獲取圖片網址都可以用集搜客爬蟲來下載圖片。下麵就以途牛網的自助遊網頁為案例，介紹一下如何用集搜客來自動下載圖片。操作步驟如下：

二、案例規則+操作步驟

如果純粹采集圖片，就不知道圖片來源於哪裏，所以，我們通常會把網頁上的文本信息“旅遊名稱”“價格”也采集下來，最後可以用excel把它們匹配起來。文章《采集網頁數據》已經詳細講過前兩步操作了，下麵就從第三步操作開始講。

第三步：采集圖片網址

3.1，點擊小圖可以定位到它的IMG節點。我們不直接采集大圖，因為大圖是由小圖放大的，並且隻顯示一張，也就隻能抓到一張大圖，但是小圖可以全部抓到，最後用excel處理就能變成大圖，所以，類似這種網頁的情況抓小圖就容易多了。

3.2，再雙擊展開IMG，就會在attributes下麵找到@src，它就是存儲圖片網址的節點

3.3，右擊@src，選擇內容映射->新建抓取內容，再輸入標簽名“小圖網址”

3.4，選中“小圖網址”，打勾下載圖片

第四步：樣例複製

4.1，在整理箱裏右擊“小圖網址”，添加新標簽“列”，再移動位置使“列”包容“小圖網址”。其中，標簽“列”隻是用來做樣例複製的，因為網頁上的旅遊名稱、價格信息隻有一條，而小圖是多張，所以，要單獨對小圖做樣例複製。

4.2，選中“列”，勾上“啟用”，找到第一個小圖的網頁節點LI映射給樣例1，它的下一個LI映射給樣例2。關於樣例複製可以看文章《采集列表數據》來掌握。

第五步：存規則，爬數據

5.1，點擊測試，隻抓到第一張小圖網址，其他的都抓空了，說明數據規則需要微調一下。通常調整定位，選擇絕對定位就可以解決。

5.2，點擊存規則、爬數據，采集成功後會在本地DataScraperWorks文件夾中生成xml文件和存儲圖片的文件夾。參考《查看數據文件》。

5.３，最後把xml文件和圖片導入到excel中進行匹配，可以調整圖片大小，操作見文章《如何把下載的大量圖片自動匹配到excel中？》。

上篇文章：《定位標誌采集列表數據》下篇文章：《采集網頁HTML源碼》

若有疑問可以或

最後更新：2017-01-09 14:08:11