296
gooseeker集搜客
采集安居客经纪人电话
采集安居客二手房经纪人电话的流程如下所示:
第一步 加载页面
确定需要采集数据的网址(称为样本页面),这里我们选择 https://shenzhen.anjuke.com/tycoon/nanshan/p1/ 作为本次教程的样本页面。

1.将样本页面网址复制粘贴到MS谋数台的网址栏处,点击键盘的Enter回车键,等到页面加载。
2.页面信息加载完成,可以在下方的浏览器页面看到页面信息。
3.在右上方的主题名处填写主题名,点击查重(因为主题名是作为区别不同主题的字段,所以需要保证唯一性,主题名被他人占用将导致无法保存规则)。
4.直到弹出主题名可用的弹窗,即说明这个主题名没有被占用,就可以进行下一步操作。
第二步 内容映射
内容映射即对页面需要采集的信息做标记,告诉程序需要采集这些信息。

1.点击右上方的创建规则
2.点击需要采集的信息,这里我们先采集经纪人姓名,点击一次,经纪人姓名背景变黄,说明该信息被选中,再点击一次,会弹出输入框,输入“经纪人”,点击√。
3.弹出整理箱输入框(整理箱可以理解为是装采集信息的箱子),整理箱名称随意取,这里我们输入“列表”,点击“确定”。
1.点击电话,选中电话后再点击一次,同样对电话弹出的输入框输入“电话”。
2.可以看到右上方有整理箱“列表”和两个采集信息“经纪人”、“电话”。
1.点击测试(测试可以预览当前所做的规则采集到的信息,通过测试查看信息是否完整再作修改)。
2.弹出提示框(关键内容是规则判断是否采集这一页面的标记,如果页面没有出现关键内容,则运行时会报错,所以通常给所有页面都会出现的信息勾选关键内容)。
1.这里我们对“经纪人”勾选关键内容,右上方选中经纪人,勾选关键内容。
2.再次点击测试,可以预览目前可采集到的内容。
第三步 样例复制
目前只能采集第一个经纪人的名字和电话,接下来采集这一页全部的经纪人信息,我们称之为样例复制。
1.选中整理箱“列表”,勾选启用。
2.点击第一个经纪人,黄色背景覆盖第一个经纪人的全部信息,上方会自动定位到对应的div节点。 注意:这里要选对节点,否则下面的样例复制会报错,正确的节点应该是当前节点(即定位编号为1150的div节点)能包含第一个经纪人的全部信息,而同级下一个节点(即定位编号为1245的div节点)包含第二个经纪人的全部信息。
1.选中div后,右击-样例复制映射-第一个,这样操作后可以看到右边的样例1显示编号1150。
1.同样选中包含第二个经纪人信息的div节点,右击-样例复制映射-第二个,可以看到右边的样例2显示编号1245。
1.这样操作后,再次点击测试,可以看到下方显示了一整页的经纪人信息。
第四步 翻页采集
到了这里我们已经把一整页的经纪人的信息采集下来,如果需要采集第二页、第三页以及后面全部的信息,就要做翻页采集(我们称之为翻页线索)。

1.点击“爬虫路线”。
2.点击“新建”,选择“记号线索”。
3.勾选“连贯抓取”。
4.点击“定位选项”,选择“偏好class”。
1.点击翻页标志“下一页>”,默认定位到a节点,点击a节点前面的三角或双击a节点可以展开,找到包含“下一页>”的text节点。
2.选择text节点,右击-线索映射-记号线索,可以看到记号值显示“下一页>”,同时记号定位编号显示对应值5226。
1.点击整个翻页区域,找到包含整个翻页区域的节点div(通过观察黄色背景是否覆盖整个翻页区域来判断节点是否正确),选择该节点后,右击-线索映射-定位-线索1。可以看到右上方的线索1下面的定位编号显示对应的编号值5173。
第五步 存规则 抓数据
以上步骤就完成了规则的定义,接下来需要保存规则。
采集结果格式为XML,默认存放在本地电脑的C盘,当前Windows账户的DataScraperWorks下,会新建一个以主题名命名的文件夹存放结果文件,可以通过在DS打数机的“文件-存储路径”修改结果存放位置。
最后更新:2017-01-09 14:08:11