694
gooseeker集搜客
xml转换为excel
一、两种操作方式
通过会员中心使xml格式转为excel格式共有两种方式,分为手工和自动,操作步骤如下:
方式一 :通过规则管理界面手工导入数据,然后导出excel数据(注意控制ZIP包的大小)
方式二 : 设置自动入库再用爬虫群采数据,最后导出excel数据
二、操作步骤
方式1:通过规则管理界面手工导入数据,然后导出excel数据
1.1,在硬盘的主题名文件夹里选中多个xml文件直接压缩到zip包,不要夹杂除xml外的文件夹或其他文件类型。
1.2,登录集搜客官网,进入会员中心->规则管理->我的规则。
1.3,点击对应主题名进入到管理页面,点击“导入数据”按钮,点击附件,选择数据包zip,点击导入。
1.4,导入成功后即可“导出数据”,在“历史记录”中可以重复下载。
注意:ZIP包不能大于10M,为了稳定上传,最好分批压缩成多个2M的包。
方式2:设置自动入库再用爬虫群采数据,最后导出excel数据
2.1,登录集搜客官网,进入会员中心->规则管理->我的规则。
2.2,点击对应主题名进入到管理页面,点击“调度”按钮,勾选“结果入库”,点击“确认”。
2.3,然后运行爬虫群采集数据。爬虫群使用方法:打开DS打数机的菜单,选择爬虫群菜单->配置,勾上自启动,再点击保存,最后重启DS打数机,就会弹出爬虫窗口自动采集该主题的网页数据。
2.4,采集完成后,回到主题的管理页面,点击“导出数据”即可。
【注意】必须使用爬虫群窗口采集数据,才会自动导入数据。点击单搜/集搜/爬数据按钮,其爬虫窗口不受调度控制。
【注意】数据管理功能是增值服务,每个规则可以免费导出1万条数据,超额请购买“专业版or旗舰版爬虫”或“数据仓库”来扩大储存量后再继续导出数据,或购买“仓库清扫”清理旧数据后再来存储新数据。
上篇文章:《采集网页数据》 下篇文章:《DS打数机采集数据》

最后更新:2017-01-09 14:08:09