659
gooseeker集搜客
1分鍾快速生成用於網頁內容提取的xslt
1,項目背景
在Python即時網絡爬蟲項目說明一文我們說過要做一個通用的網絡爬蟲,而且能節省程序員大半的時間,而焦點問題就是提取器使用的抓取規則需要快速生成。在python使用xslt提取網頁數據一文,我們已經看到這個提取規則是xslt程序,在示例程序中,直接把一長段xslt賦值給變量,但是沒有講這一段xslt是怎麼來的。
網友必然會質疑:這個xslt這麼長,編寫不是要花很長時間?
實際情況是,這個xslt是通過GooSeeker的MS謀數台的直觀標注功能自動生成的,熟練的話1分鍾就搞定
2,MS謀數台能做什麼
MS謀數台有個圖形化界麵,把一係列html解析工具集成在一起,包括:
- 基於直觀標注自動生成XSLT
- 即時測試XSLT的正確性
- 樹狀的DOM結構展示
- 剖析某個DOM節點的屬性
- 為DOM節點生成XPath,可選擇定位到class、或者id、或者絕對定位
- 根據xpath搜索DOM節點
MS謀數台界麵分成三部分:DOM數窗口、內嵌瀏覽器窗口、工作台。在工作台上定義xslt轉換規則。
3,用MS謀數台生成XSLT
假設我們要抓取論壇帖子列表,下麵一步步講解操作方法:
第一步,打開GooSeeker的MS謀數台,輸入要抓取的網址;
第二步,在MS謀數台的瀏覽器顯示窗口裏,直接選取要提取的內容,並且起個名字,點擊確認;
第三步,點擊工作台的“測試”按鈕,xslt就生成了,在“數據規則”窗口顯示出來。
通過以上的操作,不用編程,用圖形化界麵直接在頁麵上標注,1分鍾就可以生成xslt。
4,怎樣使用XSLT
在python使用xslt提取網頁數據一文,我們把生成xslt作為一個字符串交給程序,給人感覺好像一下子回到了史前文明,前麵講的那麼好,最後用了很原始的拷貝。其實不然,那個隻是一個例子。在python 即時網絡爬蟲項目: 內容提取器的定義一文已經初見端倪了,有多種注入xslt的方式,最自動化的方式是api,將在後續文章中詳細講解。
5,文檔修改曆史
- 2016-05-28:V3.0,增加第二章
- 2016-05-27:V2.0,增補文字說明
若有疑問可以或
最後更新:2017-01-09 14:08:11