阅读687 返回首页    go gooseeker集搜客


数据规则怎么看

数据规则就是随着标注和映射操作立刻生成的XSLT程序,它是爬虫采集网页数据的依据,主要涉及到xpath,大家在掌握html、xml、xpath的基础上,就能很好地理解XSLT程序。查看方法是点击“测试”->“数据规则”,如下图。


查看数据规则是为了能在原来的基础上优化程序,有很多实现的方法,例如定位标志或自定义xpath,这里就不细说了,下面讲解一下数据规则的结构。

1、整理箱的起点路径

在xsl:apply-template select=”***”,双引号和and前面的就是整理箱的起点路径,and后面是勾了关键内容的标签的xpath路径。起点路径限定了整理箱的采集范围,其他标签的xpath要包含在它里面,才可以被定位和采集。

2、每个标签的xpath路径

只要看标签下的第一条程序xsl:value-of select="***”,双引号里面就是它的xpath。


Tips1:爬虫路线也是有规则的,除下级线索外,设置其他类型的爬虫路线后,就会生成一个路线程序。点击“查看规则”,在线索规则里,标签里面的就是该路线的xpath路径。


Tips2:规则里的xpath是越短越好,因为越短的xpath所查找的路径层级就越少,能大大减少由于网页结构变动而定位失败的情况,通常做定位标志映射可以优化xpath路径。


上一篇文章:《XML文件结构》                                                                     下一篇文章:《采集网页html源码》


若有疑问可以或集搜客爬虫软件

最后更新:2017-01-09 14:08:12

  上一篇:go 【第33期】精确采集用定位标志
  下一篇:go 连续动作:自动搜索关键词采集信息—以京东为例