144 gooseeker集搜客

采集图片网址并下载图片——以途牛旅游网为例

一、操作步骤

集搜客爬虫不仅能抓到网页上的文本、网址数据，还可以批量下载图片到电脑中。无论是列表页还是详情页上的图片，只要能获取图片网址都可以用集搜客爬虫来下载图片。下面就以途牛网的自助游网页为案例，介绍一下如何用集搜客来自动下载图片。操作步骤如下：

二、案例规则+操作步骤

如果纯粹采集图片，就不知道图片来源于哪里，所以，我们通常会把网页上的文本信息“旅游名称”“价格”也采集下来，最后可以用excel把它们匹配起来。文章《采集网页数据》已经详细讲过前两步操作了，下面就从第三步操作开始讲。

第三步：采集图片网址

3.1，点击小图可以定位到它的IMG节点。我们不直接采集大图，因为大图是由小图放大的，并且只显示一张，也就只能抓到一张大图，但是小图可以全部抓到，最后用excel处理就能变成大图，所以，类似这种网页的情况抓小图就容易多了。

3.2，再双击展开IMG，就会在attributes下面找到@src，它就是存储图片网址的节点

3.3，右击@src，选择内容映射->新建抓取内容，再输入标签名“小图网址”

3.4，选中“小图网址”，打勾下载图片

第四步：样例复制

4.1，在整理箱里右击“小图网址”，添加新标签“列”，再移动位置使“列”包容“小图网址”。其中，标签“列”只是用来做样例复制的，因为网页上的旅游名称、价格信息只有一条，而小图是多张，所以，要单独对小图做样例复制。

4.2，选中“列”，勾上“启用”，找到第一个小图的网页节点LI映射给样例1，它的下一个LI映射给样例2。关于样例复制可以看文章《采集列表数据》来掌握。

第五步：存规则，爬数据

5.1，点击测试，只抓到第一张小图网址，其他的都抓空了，说明数据规则需要微调一下。通常调整定位，选择绝对定位就可以解决。

5.2，点击存规则、爬数据，采集成功后会在本地DataScraperWorks文件夹中生成xml文件和存储图片的文件夹。参考《查看数据文件》。

5.３，最后把xml文件和图片导入到excel中进行匹配，可以调整图片大小，操作见文章《如何把下载的大量图片自动匹配到excel中？》。

上篇文章：《定位标志采集列表数据》下篇文章：《采集网页HTML源码》

若有疑问可以或

最后更新：2017-01-09 14:08:11