698 gooseeker集搜客

采集網頁html源碼

一、操作步驟

對於學習網頁設計的人來說，有時候遇到了自己很喜歡的網頁，卻得不到它的html代碼，或者得到的代碼不完整。下麵用網易新聞采集作為案例，教大家采集html源碼，具體操作步驟如下：

二、案例規則+操作步驟

第一步：打開網頁

1.1，打開GS爬蟲瀏覽器，輸入網址並ENTER，加載出網頁後再點擊“定義規則”；

1.2，在工作台中輸入主題名，並點擊“查重”看主題名是否被占用。

第二步：標注信息

2.1，雙擊要抓取的目標信息，輸入整理箱名和標簽名，並勾上關鍵內容。

2.2，雙擊字段名，給抓取內容設置高級選項，勾選“高級設置”，選擇“網頁片段”，保存。

第三步：存規則，抓數據

3.1，規則測試成功後，點擊“存規則”；

3.2，點擊“爬數據”，彈出DS打數機，開始抓數據。

Tips：想要網頁的整個html源碼，可以直接對html節點做映射，然後高級設置裏選擇網頁片段，最後保存規則。操作如下圖：

上篇文章：《數據規則怎麼看》

若有疑問可以或

最後更新：2017-01-09 14:08:12