170 阿裏雲技術社區[雲棲]

抽取網頁數據的不同思路

客戶要求從Internet上的網頁上抽取一定的數據，用來顯示或者其他用戶，這個需求很常見。這兩天我們也遇到了這個需求，本來我一開始想是試用正則表達式去匹配需要的文本數據，後來經驗豐富的經理給出了一個更好的思路，就是使用jtidy將不符合xhtml的HTML文件轉化成標準的xhtml文件——本質上就是XML文件，然後利用xsl抽取並轉換成我們所需要的數據的一定格式的xml文件。這樣做其實就是將XSL模板當正則表達式來用，不過更清晰，當網頁改變時也不需要重新編譯代碼，僅僅修改XSL模板就夠了。過程如下：
html->xhtml--xsl-->數據xml

做的過程中，初次使用了xsl,xpath等技術，網上找了不少好資料，共享下：
jtidy:

思路來源
https://www.ibm.com/developerworks/cn/xml/x-wbdm/

項目地址
https://jtidy.sourceforge.net/

參考，解決中文問題使用
https://www.blogjava.net/jhengfei/archive/2006/03/25/37312.html

xsl,非常係統教程和實踐:

https://www.cnblogs.com/goody9807/category/36016.html

xpath:

https://www.yesky.com/201/171201.shtml

文章轉自莊周夢蝶，原文發布時間2007-11-22

最後更新：2017-05-17 17:01:55

抽取網頁數據的不同思路

上一篇： Lua學習小記——語言

下一篇：再談java的內存泄露

相關內容

熱門內容

最新內容

抽取網頁數據的不同思路

上一篇： Lua學習小記——語言

下一篇： 再談java的內存泄露

相關內容

熱門內容

最新內容

下一篇：再談java的內存泄露