157
火車采集器
使用php插件應對不同格式的分頁樣式
使用php插件應對不同格式的分頁樣式
作者:小文 發布於:2011-6-1 14:59 Wednesday 分類:軟件培訓
有的網站使用多種模板顯示分頁地址,這種情況下我們要獲取分頁地址就非常困難了。不過我們可以通過插件的功能,自己編寫程序判斷並生成分頁的地址,然後讓采集器去獲取到。我們的例子如下:
本次測試的網址:
https://www.diyifanwen.com/fanwen/lunwenzhidao/1141715512857992.htm
https://www.diyifanwen.com/fanwen/zhuchici/20101011222334115874624.htm
我們分析其分頁地址,可以看到不同的分頁樣式和代碼
對於這種基本沒規律的分頁,我們無法判斷分頁的區域,也無法直接得知其總分頁數,該怎麼辦呢?
經分析可以得知,分頁的規律是在原網址後加上分頁頁碼,如 默認頁是1141715512857992.htm,則分頁是 1141715512857992_2.htm 。因為這個分頁是全部列出的,我們就有辦法了:可以去循環查找是否有分頁地址存在,有存在則說明有這個分頁,然後我們生成存在的網頁地址即可。我們用php來寫插件。
插件中判斷了當前頁麵類型,然後對整個內容頁代碼進行修改,生成有分頁的代碼。
在采集器中,插件使用位置如下
最後的結果如下
注意設置這裏的分頁區域和插件中的一致。
到這裏,這個分頁的處理就完成了。
如果我們有時遇到更複雜的怎麼辦,如 無法確認有幾個分頁,是上下頁模式的,這時用插件可以使用笨辦法,先探測一下下一頁是否存在,如果存在則加入,不存在就跳過。
附件中為本次的規則和插件。大家可以再研究一下。
附件下載:
pages.7z 3.66KB
評論:
最後更新:2017-05-09 01:05:56