閱讀927 返回首頁    go gooseeker集搜客


集搜客網絡爬蟲的核心名詞

集搜客網絡爬蟲的操作方法很直觀,想要什麼,就把他們標記出來,網絡爬蟲就會自動把他們存下來。標記過程很自由,不講究順序。

一、直觀標注

在網頁上,看到想采集的內容,點擊兩次,就彈出一個標簽,給標簽起個名字。把所有要采集的內容逐個這樣標注。不分先後順序。

二、整理箱

采集到的內容要存到一個表格裏麵,這個表格就叫整理箱,表示:“把網頁上的內容整理好,存在一個箱子中”。這個整理箱顯示在右邊的一個浮動窗口上。


三、映射

“映射”這個詞經常出現,表示:“把網頁上的內容與整理箱中的內容建立聯係”。標注過程就是建立映射關係,有了這個關係,網絡爬蟲就知道從哪裏采集數據並存儲到哪裏。


開始閱讀《從入門到精通》


若有疑問可以或集搜客網絡爬蟲

最後更新:2017-01-09 14:08:11

  上一篇:go Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態HTML內容
  下一篇:go Python數據分析學習路徑圖