阅读927 返回首页    go gooseeker集搜客


集搜客网络爬虫的核心名词

集搜客网络爬虫的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们存下来。标记过程很自由,不讲究顺序。

一、直观标注

在网页上,看到想采集的内容,点击两次,就弹出一个标签,给标签起个名字。把所有要采集的内容逐个这样标注。不分先后顺序。

二、整理箱

采集到的内容要存到一个表格里面,这个表格就叫整理箱,表示:“把网页上的内容整理好,存在一个箱子中”。这个整理箱显示在右边的一个浮动窗口上。


三、映射

“映射”这个词经常出现,表示:“把网页上的内容与整理箱中的内容建立联系”。标注过程就是建立映射关系,有了这个关系,网络爬虫就知道从哪里采集数据并存储到哪里。


开始阅读《从入门到精通》


若有疑问可以或集搜客网络爬虫

最后更新:2017-01-09 14:08:11

  上一篇:go Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
  下一篇:go Python数据分析学习路径图