閱讀698 返回首頁    go gooseeker集搜客


采集網頁html源碼

一、操作步驟

對於學習網頁設計的人來說,有時候遇到了自己很喜歡的網頁,卻得不到它的html代碼,或者得到的代碼不完整。下麵用網易新聞采集作為案例,教大家采集html源碼,具體操作步驟如下:


二、案例規則+操作步驟

  • 采集規則:網易新聞源碼采集(可點擊下載)
  • 樣本網址:https://news.163.com/16/1019/07/C3NO1BS100014SEH.html
  • 采集內容:某模塊節點的html代碼

第一步:打開網頁

1.1,打開GS爬蟲瀏覽器,輸入網址並ENTER,加載出網頁後再點擊“定義規則”;

1.2,在工作台中輸入主題名,並點擊“查重”看主題名是否被占用。


第二步:標注信息

2.1,雙擊要抓取的目標信息,輸入整理箱名和標簽名,並勾上關鍵內容。


2.2,雙擊字段名,給抓取內容設置高級選項,勾選“高級設置”,選擇“網頁片段”,保存。


第三步:存規則,抓數據

3.1,規則測試成功後,點擊“存規則”;

3.2,點擊“爬數據”,彈出DS打數機,開始抓數據。


Tips:想要網頁的整個html源碼,可以直接對html節點做映射,然後高級設置裏選擇網頁片段,最後保存規則。操作如下圖:


上篇文章:《數據規則怎麼看》


若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:12

  上一篇:go 中級教程
  下一篇:go 【第32期】美團網店鋪信息采集