1分鍾快速生成用於網頁內容提取的xslt

1，項目背景

在Python即時網絡爬蟲項目說明一文我們說過要做一個通用的網絡爬蟲，而且能節省程序員大半的時間，而焦點問題就是提取器使用的抓取規則需要快速生成。在python使用xslt提取網頁數據一文，我們已經看到這個提取規則是xslt程序，在示例程序中，直接把一長段xslt賦值給變量，但是沒有講這一段xslt是怎麼來的。

網友必然會質疑：這個xslt這麼長，編寫不是要花很長時間？

實際情況是，這個xslt是通過GooSeeker的MS謀數台的直觀標注功能自動生成的，熟練的話1分鍾就搞定

2，MS謀數台能做什麼

MS謀數台有個圖形化界麵，把一係列html解析工具集成在一起，包括：

基於直觀標注自動生成XSLT
即時測試XSLT的正確性
樹狀的DOM結構展示
剖析某個DOM節點的屬性
為DOM節點生成XPath，可選擇定位到class、或者id、或者絕對定位
根據xpath搜索DOM節點

MS謀數台界麵分成三部分：DOM數窗口、內嵌瀏覽器窗口、工作台。在工作台上定義xslt轉換規則。

3，用MS謀數台生成XSLT

假設我們要抓取論壇帖子列表，下麵一步步講解操作方法：

第一步，打開GooSeeker的MS謀數台，輸入要抓取的網址；

第二步，在MS謀數台的瀏覽器顯示窗口裏，直接選取要提取的內容，並且起個名字，點擊確認；

第三步，點擊工作台的“測試”按鈕，xslt就生成了，在“數據規則”窗口顯示出來。

通過以上的操作，不用編程，用圖形化界麵直接在頁麵上標注，1分鍾就可以生成xslt。

4，怎樣使用XSLT

在python使用xslt提取網頁數據一文，我們把生成xslt作為一個字符串交給程序，給人感覺好像一下子回到了史前文明，前麵講的那麼好，最後用了很原始的拷貝。其實不然，那個隻是一個例子。在python 即時網絡爬蟲項目: 內容提取器的定義一文已經初見端倪了，有多種注入xslt的方式，最自動化的方式是api，將在後續文章中詳細講解。

5，文檔修改曆史

2016-05-28：V3.0，增加第二章
2016-05-27：V2.0，增補文字說明

若有疑問可以或集搜客網絡爬蟲

最後更新：2017-01-09 14:08:11

1分鍾快速生成用於網頁內容提取的xslt

1，項目背景

2，MS謀數台能做什麼

3，用MS謀數台生成XSLT

4，怎樣使用XSLT

5，文檔修改曆史

上一篇：讓Scrapy的Spider更通用

下一篇：為采集動態網頁安裝和測試Python Selenium庫

相關內容

熱門內容

最新內容

1分鍾快速生成用於網頁內容提取的xslt

1，項目背景

2，MS謀數台能做什麼

3，用MS謀數台生成XSLT

4，怎樣使用XSLT

5，文檔修改曆史

上一篇： 讓Scrapy的Spider更通用

下一篇： 為采集動態網頁安裝和測試Python Selenium庫

相關內容

熱門內容

最新內容

上一篇：讓Scrapy的Spider更通用

下一篇：為采集動態網頁安裝和測試Python Selenium庫