602
火車采集器
【東哥福利】豆瓣電影采集規則及發布到本地CSV格式文件
【東哥福利】豆瓣電影采集規則及發布到本地CSV格式文件
作者:dong 發布於:2017-3-23 10:45 Thursday 分類:強烈推薦
【東哥福利】今天為大家帶來豆瓣電影采集規則,同時為大家講解如何本地發布csv文件。另外今天還給大家講解如何通過fiddler抓包軟件抓取網頁真實網址。
文件包中包含兩個規則文件,一個發布模板文件,請按照以下說明使用。
本規則為火車采集器V9版規則,其他低版本不可使用。
本規則采集豆瓣電影信息,本規則僅供學習參考,僅抓取其中一個類別,另因豆瓣有IP限製,本規則不能將全部數據采集下來,如需要采集更多數據,請自行配置IP資源。
規則文件“豆瓣電影 - 帶發布csv配置(收費版可用).ljobx”帶發布csv配置,但必須收費版方可使用
文件“豆瓣電影.csv"為發布csv模板,請將此文件複製到FileTemplate目錄下
文件“豆瓣電影.ljobx”為免費版用戶可使用的規則,不帶發布配置
本規則僅供廣大用戶學習交流參考,不可用以違法目的或商業用途,我們不對因使用此規則造成的任何法律問題承擔責任。
下載鏈接:https://bbs.locoy.com/spider-150886-1-1.html
商業版用戶有問題或付費定製規則請聯係官方客服QQ:800019423 服務熱線:400-8757-060
【案例講解】
本案例是采集豆瓣電影信息數據,網址https://movie.douban.com/
如上圖,這種瀑布流形式的網頁是無法直接看到數據列表的真實網址,需要借助抓包軟件來抓取真實網址,我們這裏是推薦使用Fiddler。
大家可以自行去下載該軟件,然後打開軟件,打開豆瓣電影頁麵,點擊加載更多,抓包軟件便會記錄他的數據列表真實地址,如何找到該地址參照上圖。
關於fiddler的使用教程:https://faq.locoy.com/search.html?keyword=fiddler
另外由於豆瓣使用的是https協議,fiddler軟件需要進行設置方可抓取https協議的網址,設置方法參照:https://faq.locoy.com/q-1194.html
【如何設置發布數據到本地CSV格式】
如上圖:內容發布規則設置,選擇保存為本地文件,本地文件保存啟用,文件格式選擇csv,然後需要設置一個保存模板,下載附件中已經包含了應該模板文件,可以直接使用。(這裏也簡單提下如何製作模板文件,在我們的模板文件目錄裏有一個默認csv模板文件,可以直接複製一個另起一名,然後用記事本方式打開,再強調一下,一定要用記事本打開,然後按照自己的采集標簽修改,字段名一定要與采集器內容采集中的標簽名相同,字段之間的逗號一定要用英文逗號。)
如上圖在其他設置裏有個任務運行線程及時間,發布的線程可以修改,這可以加快發布的速度。
一切設置好之後,按照上圖,可以把前麵兩√去掉,然後運行任務即可將數據保存到本地csv格式。
往期福利:
【東哥福利】美女圖片采集規則及DZ3.X門戶發布規則分享
【東哥福利】火車采集器58同城招聘信息采集規則分享
【東哥福利】火車采集器軟件-今日頭條娛樂新聞采集規則
【東哥福利】火車采集器V9攜程景點采集規則分享
【東哥福利】火車采集器V9京東商城商品信息采集規則分享
火車采集器軟件V9.3最新視頻教程-YY直播課程錄屏合集
聯係我們
客服QQ:800019423
客服電話:400-8757-060
軟件購買:https://www.locoy.com/buy
基礎版:460(不含發票)506(含發票)
旗艦版(機器碼版):880(不含發票)960(含發票)
旗艦版(自動授權版):1290(不含發票)1403(含發票)
企業版(尊享版):3380(不含發票)3660(含發票)
企業版(豪華版):7980(不含發票)8628(含發票)
標簽: 采集規則分享
最後更新:2017-05-09 01:06:04