阅读892 返回首页    go gooseeker集搜客


定位标志精确采集范围——以安居客租房采集为例

一、操作步骤

如果只是简单地把信息标注出来,可以采集到样本网页的数据,但是批量采集同类网页就可能会遇到失败。这种情况下需要加上定位标志映射以提高数据规则的精度和适应性,降低网页变化带来的影响。下面用安居客网作为案例,操作步骤如下:


二、案例规则+操作步骤

  • 采集规则:安居客租房采集(可点击下载)
  • 样本网址:https://sz.zu.anjuke.com/?pi=baidu-cpchz-sz-tyong1&kwid=8248540023&utm_term=%E6%B7%B1%E5%9C%B3+%E7%A7%9F%E6%88%BF%E7%BD%91
  • 采集内容:标题、价格、地点、格局

前面三步的具体步骤可以参考文章《采集列表数据》,下面从第四步讲解。

第四步:定位标志

4.1,点击标题,在底部窗口里找到包容标题的区块节点,并且要有属性值(id或class值),在本例中,找到的div节点有属性值@class=zu-info,可以作为定位标志值。

4.2,右击节点,选择“定位标志映射”->“标题”,映射后,在整理箱的定位标志和类型这两列,可以看到zu-info和+class,表示把@class=t的节点映射给了标题,这时,标题既有内容映射又有定位标志映射。


4.3,重复4.1和4.2步骤,对其他内容也做定位标志映射。


第五步:存规则,抓数据

5.1,规则测试成功后,点击“存规则”;

5.2,点击“爬数据”,弹出DS打数机,开始抓数据。


Tips1:有以下两种情况需要调整一下定位类型。

1、如果这个节点同时有id值和class值,可以双击抓取内容,选择“偏好id”或者“偏好class”,通常选择同类网页都相同的定位值。这是对单个抓取内容生效的。


2、如果抓到空信息或错位信息,需要调整整理箱的定位,选择合适的类型,通常选择“绝对定位”可以解决。这是对整理箱生效的。


Tips2:下面是定位标志的使用范围。

1、定位标志虽然不是必须的,但会大大提高规则的精确度和适用性。

2、同一个定位标志值可以映射给多个抓取内容。

3、样例复制下的抓取内容要限定到样例1节点的范围里,再选合适的定位值。

4、做了样例复制不能再做定位标志映射。


上篇文章:《采网址做层级采集》                                                       下篇文章:《定位标志——采集列表数据》


若有疑问可以或集搜客爬虫软件

最后更新:2017-01-09 14:08:11

  上一篇:go 快速制作规则及获取规则提取器API
  下一篇:go Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容