閱讀258 返回首頁    go gooseeker集搜客


定位標誌采集列表數據——以百度旅遊為例

一、操作步驟

之前的教程已經教過怎樣用樣例複製來采集列表數據,除了用樣例複製,還可以用定位標誌映射來采集列表數據。 下麵用百度旅遊作為案例來講解,操作步驟如下:


二、案例規則+操作步驟

  • 采集規則:百度旅遊定位標誌(可點擊下載)
  • 樣本網址:https://lvyou.baidu.com/plan/counselor?surls[]=lijiang&days_cnt_low=&days_cnt_high=
  • 采集內容:每一個旅程的標題、目的地、行程天數、複製數和瀏覽數

第一步:打開網頁

1.1,打開GS爬蟲瀏覽器,輸入網址,按Enter鍵;

1.2,點擊“定義規則”按鈕;

1.3,輸入主題名,再點擊“查重”,提示“該名可以使用”,點擊OK。


第二步:標注信息

2.1,雙擊要采集的內容,輸入標簽名,按Enter鍵。

2.2,輸入整理箱名稱。


2.3,重複步驟2.1來標注目的地、行程天數、複製數和瀏覽數。

2.4,點擊標題,勾上關鍵內容。


第三步:定位標誌映射

3.1,找到包含第一個行程的區塊節點LI,選中後右擊-定位標誌映射-列表。

Tips:區塊節點需要有class值或id值才能用作定位標誌映射,否則隻能做樣例複製。


3.2,可以看到列表的定位標誌欄填上list-item,點擊測試在輸出結果窗口可以看到多條旅程信息。


第四步:存規則,爬數據

4.1,點擊“存規則”,提示保存成功。

4.2,點擊“爬數據”就可以開始采集數據。


上篇文章:《定位標誌精確采集範圍》                                                   下篇文章:《采集圖片網址並下載圖片》


若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:11

  上一篇:go 【第29期】微博博主主頁采集
  下一篇:go 集搜客文本分詞標注工具使用指南4-下載打標結果