698
gooseeker集搜客
采集網頁html源碼
一、操作步驟
對於學習網頁設計的人來說,有時候遇到了自己很喜歡的網頁,卻得不到它的html代碼,或者得到的代碼不完整。下麵用網易新聞采集作為案例,教大家采集html源碼,具體操作步驟如下:
二、案例規則+操作步驟
- 采集規則:網易新聞源碼采集(可點擊下載)
- 樣本網址:https://news.163.com/16/1019/07/C3NO1BS100014SEH.html
- 采集內容:某模塊節點的html代碼
第一步:打開網頁
1.1,打開GS爬蟲瀏覽器,輸入網址並ENTER,加載出網頁後再點擊“定義規則”;
1.2,在工作台中輸入主題名,並點擊“查重”看主題名是否被占用。
第二步:標注信息
2.1,雙擊要抓取的目標信息,輸入整理箱名和標簽名,並勾上關鍵內容。
2.2,雙擊字段名,給抓取內容設置高級選項,勾選“高級設置”,選擇“網頁片段”,保存。
第三步:存規則,抓數據
3.1,規則測試成功後,點擊“存規則”;
3.2,點擊“爬數據”,彈出DS打數機,開始抓數據。
Tips:想要網頁的整個html源碼,可以直接對html節點做映射,然後高級設置裏選擇網頁片段,最後保存規則。操作如下圖:
上篇文章:《數據規則怎麼看》
若有疑問可以或

最後更新:2017-01-09 14:08:12