687
gooseeker集搜客
数据规则怎么看
数据规则就是随着标注和映射操作立刻生成的XSLT程序,它是爬虫采集网页数据的依据,主要涉及到xpath,大家在掌握html、xml、xpath的基础上,就能很好地理解XSLT程序。查看方法是点击“测试”->“数据规则”,如下图。
查看数据规则是为了能在原来的基础上优化程序,有很多实现的方法,例如定位标志或自定义xpath,这里就不细说了,下面讲解一下数据规则的结构。
1、整理箱的起点路径
在xsl:apply-template select=”***”,双引号和and前面的就是整理箱的起点路径,and后面是勾了关键内容的标签的xpath路径。起点路径限定了整理箱的采集范围,其他标签的xpath要包含在它里面,才可以被定位和采集。
2、每个标签的xpath路径
只要看标签下的第一条程序xsl:value-of select="***”,双引号里面就是它的xpath。
Tips1:爬虫路线也是有规则的,除下级线索外,设置其他类型的爬虫路线后,就会生成一个路线程序。点击“查看规则”,在线索规则里,
Tips2:规则里的xpath是越短越好,因为越短的xpath所查找的路径层级就越少,能大大减少由于网页结构变动而定位失败的情况,通常做定位标志映射可以优化xpath路径。
上一篇文章:《XML文件结构》 下一篇文章:《采集网页html源码》
若有疑问可以或

最后更新:2017-01-09 14:08:12