閱讀157 返回首頁    go 火車采集器


使用php插件應對不同格式的分頁樣式

使用php插件應對不同格式的分頁樣式

作者:小文 發布於:2011-6-1 14:59 Wednesday 分類:軟件培訓

有的網站使用多種模板顯示分頁地址,這種情況下我們要獲取分頁地址就非常困難了。不過我們可以通過插件的功能,自己編寫程序判斷並生成分頁的地址,然後讓采集器去獲取到。我們的例子如下:

本次測試的網址:

https://www.diyifanwen.com/fanwen/lunwenzhidao/1141715512857992.htm
https://www.diyifanwen.com/fanwen/zhuchici/20101011222334115874624.htm

我們分析其分頁地址,可以看到不同的分頁樣式和代碼

點擊查看原圖

點擊查看原圖

 

點擊查看原圖

點擊查看原圖

 

對於這種基本沒規律的分頁,我們無法判斷分頁的區域,也無法直接得知其總分頁數,該怎麼辦呢?

經分析可以得知,分頁的規律是在原網址後加上分頁頁碼,如 默認頁是1141715512857992.htm,則分頁是 1141715512857992_2.htm 。因為這個分頁是全部列出的,我們就有辦法了:可以去循環查找是否有分頁地址存在,有存在則說明有這個分頁,然後我們生成存在的網頁地址即可。我們用php來寫插件。

點擊查看原圖

插件中判斷了當前頁麵類型,然後對整個內容頁代碼進行修改,生成有分頁的代碼。

在采集器中,插件使用位置如下

點擊查看原圖

最後的結果如下

點擊查看原圖

注意設置這裏的分頁區域和插件中的一致。

到這裏,這個分頁的處理就完成了。

如果我們有時遇到更複雜的怎麼辦,如 無法確認有幾個分頁,是上下頁模式的,這時用插件可以使用笨辦法,先探測一下下一頁是否存在,如果存在則加入,不存在就跳過。


附件中為本次的規則和插件。大家可以再研究一下。

附件下載:
pages.7z 3.66KB

標簽: php 插件

相關日誌:

火車瀏覽器開發SDK下載

分頁的采集培訓

火車頭數據采集平台Web發布模塊插件的開發文檔

一個腳本網址的采集辦法(11.24)

YY語音火車采集器V7版本特性介紹(3.8)

« 關於未在本地計算機上注冊“Microsoft.Jet.OLEDB.4.0 的問題的解決辦法 | 火車采集器2010SP3 build 20110531更新發布»

評論:

支持
2011-07-22 16:43
8錯8錯

發表評論:

最後更新:2017-05-09 01:05:56

  上一篇:go 火車采集器新版升級程序(最後更新20110520)
  下一篇:go ACCESS打開表時出現“未知”錯誤提示解決方法