閱讀144 返回首頁    go gooseeker集搜客


采集圖片網址並下載圖片——以途牛旅遊網為例

一、操作步驟

集搜客爬蟲不僅能抓到網頁上的文本、網址數據,還可以批量下載圖片到電腦中。無論是列表頁還是詳情頁上的圖片,隻要能獲取圖片網址都可以用集搜客爬蟲來下載圖片。下麵就以途牛網的自助遊網頁為案例,介紹一下如何用集搜客來自動下載圖片。操作步驟如下:


二、案例規則+操作步驟

  • 采集規則:途牛自助遊圖片采集(點擊可下載)
  • 樣本網址:https://www.tuniu.com/tours/210299425
  • 采集內容:旅遊名稱、價格、圖片網址。

如果純粹采集圖片,就不知道圖片來源於哪裏,所以,我們通常會把網頁上的文本信息“旅遊名稱”“價格”也采集下來,最後可以用excel把它們匹配起來。文章《采集網頁數據》已經詳細講過前兩步操作了,下麵就從第三步操作開始講。


第三步:采集圖片網址

3.1, 點擊小圖可以定位到它的IMG節點。我們不直接采集大圖,因為大圖是由小圖放大的,並且隻顯示一張,也就隻能抓到一張大圖,但是小圖可以全部抓到,最後用excel處理就能變成大圖,所以,類似這種網頁的情況抓小圖就容易多了。

3.2,再雙擊展開IMG,就會在attributes下麵找到@src,它就是存儲圖片網址的節點

3.3,右擊@src,選擇內容映射->新建抓取內容,再輸入標簽名“小圖網址”

3.4,選中“小圖網址”,打勾下載圖片


第四步:樣例複製

4.1, 在整理箱裏右擊“小圖網址”,添加新標簽“列”,再移動位置使“列”包容“小圖網址”。 其中,標簽“列”隻是用來做樣例複製的,因為網頁上的旅遊名稱、價格信息隻有一條,而小圖是多張,所以,要單獨對小圖做樣例複製。


4.2,選中“列”,勾上“啟用”,找到第一個小圖的網頁節點LI映射給樣例1,它的下一個LI映射給樣例2。關於樣例複製可以看文章《采集列表數據》來掌握。


第五步:存規則,爬數據

5.1,點擊測試,隻抓到第一張小圖網址,其他的都抓空了,說明數據規則需要微調一下。通常調整定位,選擇絕對定位就可以解決。


5.2,點擊存規則、爬數據,采集成功後會在本地DataScraperWorks文件夾中生成xml文件和存儲圖片的文件夾。參考《查看數據文件》。


5.3,最後把xml文件和圖片導入到excel中進行匹配,可以調整圖片大小,操作見文章《如何把下載的大量圖片自動匹配到excel中?》。


上篇文章:《定位標誌采集列表數據》                                            下篇文章:《采集網頁HTML源碼》


若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:11

  上一篇:go 爬蟲管理——規則羅盤
  下一篇:go 集搜客文本分詞標注工具使用指南5-如何使用打標結果