687
gooseeker集搜客
數據規則怎麼看
數據規則就是隨著標注和映射操作立刻生成的XSLT程序,它是爬蟲采集網頁數據的依據,主要涉及到xpath,大家在掌握html、xml、xpath的基礎上,就能很好地理解XSLT程序。查看方法是點擊“測試”->“數據規則”,如下圖。
查看數據規則是為了能在原來的基礎上優化程序,有很多實現的方法,例如定位標誌或自定義xpath,這裏就不細說了,下麵講解一下數據規則的結構。
1、整理箱的起點路徑
在xsl:apply-template select=”***”,雙引號和and前麵的就是整理箱的起點路徑,and後麵是勾了關鍵內容的標簽的xpath路徑。起點路徑限定了整理箱的采集範圍,其他標簽的xpath要包含在它裏麵,才可以被定位和采集。
2、每個標簽的xpath路徑
隻要看標簽下的第一條程序xsl:value-of select="***”,雙引號裏麵就是它的xpath。
Tips1:爬蟲路線也是有規則的,除下級線索外,設置其他類型的爬蟲路線後,就會生成一個路線程序。點擊“查看規則”,在線索規則裏,
Tips2:規則裏的xpath是越短越好,因為越短的xpath所查找的路徑層級就越少,能大大減少由於網頁結構變動而定位失敗的情況,通常做定位標誌映射可以優化xpath路徑。
上一篇文章:《XML文件結構》 下一篇文章:《采集網頁html源碼》
若有疑問可以或

最後更新:2017-01-09 14:08:12