659
Python
Python網絡爬蟲從入門到進階工作坊
2017年8月,學術中國在北京舉辦Python網絡爬蟲從入門到進階工作坊(第1季),好評如潮,尤其是老師課後在微信群裏的繼續答疑打消了大家的後顧之憂。很多學友回去後自己爬取了網頁數據,對自身的研究提供了很大的便利。數據時代,得數據者得天下,尤其是對於經管及社科研究者而言,當你學會了Python網絡爬蟲這個工具,將為你的研究插上加速器,自由獲取網絡上相關的研究數據。
以下是第1季部分學員心聲:
張老師(神戶大學):老師講解很耐心仔細,助教也認真負責幫忙解決問題。
廣東某公司策劃經理:聽了葉老師的課收獲很大,真正零基礎也可以聽得懂。通過課程已經能夠對簡單的網頁數據進行爬蟲抓取。老師和幾位助教都很負責,初次寫數據代碼肯定會有很多錯誤的地方,老師和助教都能及時幫助糾正和解決,比自己看書看網絡視頻好多了。
羅老師(中國人民大學):葉老師上課超棒,講解細致有條理,每次都會耐心地回答我們的疑問。經過學習,目前我們都基本掌握了初級的爬蟲技術,能獨立請求網頁、獲取信息並存儲數據。葉老師,你值得擁有!
朱老師(西南財經大學):很早的時候,導師就讓我學下python數據抓取,我自己也在網上搜了不少資料,進行摸索,可是網上資料比較亂,嚐試了幾次,總是會出現這樣或者那樣的小問題,挫敗感比較強,後來就放棄了。這次聽了葉老師的課程,有一種豁然開朗的感覺,回去自己很快就爬下了幾個網站。確實非常適合初學者,能夠幫忙節約大量的時間,真誠推薦!!!
更為熟悉,將來學習Python的數據分析也木有陌生感。非常值得參與的一門課程!
陳老師(複旦大學):
開課時講完導言PPT就覺得自己報對了,葉大神真是哪哪都爬過,爬數據這門技術,也是哪哪都需要,人才呐!從學術研究,到技術崗位,就業能力,自己能多一門技能真的是很期待~
最後一點,真的零基礎都不要擔心,看到同期班裏的老師、博士們、碩士們,覺得自己要跟不上,然而老師細心從頭講,助教輔導解決各種問題,一路走的很順利~
歐陽同學(裏昂高等商學院):
葉老師的課條理非常清晰,先展示了他爬過的一些成果,然後概括了一個爬數據的順序,即三大步:請求網頁、提取數據、保存本地,然後從最基本的指令開始教起。且每一個步都會親自指導有疑惑的同學,隨時可以提問,隨時解答,效率非常高,比自己在網上學少走了許多彎路。
ps:葉老師最後一堂課現場演示如何爬鏈家網的一百多頁數據,簡直激動人心!
再看看活動現場,滿屏都是學習的熱情啊!
我們為課程建設的專屬微信群裏也是熱烈討論。
因場地限製,第1季現場僅限70人參與了學習。很多學友被學長“無情的”擋在門外。為了彌補大家的遺憾,我們決定在今年10月份開設“Python網絡爬蟲從入門到進階工作坊(第2季)”。
還是原來的“配方”,還是原來的“味道”,但是我們會更加升級服務!就等你了!
特訓內容
第一課. Python基礎知識(第一天上午)
1、軟件運行與基本操作
2、變量與運算:字符、數值
3、數據結構:列表(list)和字典(dict),用於儲存抓取下來的數據
4、字符串操作:清洗數據
5、函數定義和類:搭建爬蟲框架
6、條件判斷(if):解決爬蟲過程中選擇的問題
7、循環迭代(for... while...):控製爬蟲持續抓取數據
8、錯誤與異常的處理:(try... except...)以及借助網絡解決問題
第二課. 請求網頁(第一天下午)
(網絡爬蟲的原理,最重要的一步)
1、 HTML基礎知識介紹:網址,網頁類型,HTML語言
2、 爬蟲思路介紹
3、 庫:requests(詳細介紹,利用該強大的模塊請求各類網頁)
4、 文件讀寫操作及中文亂碼解決
第三課. 提取信息(第二天上午)
1、利用瀏覽器分析網頁:使用瀏覽器自帶的開發者工具
2、正則表達式及模塊詳細介紹:re (用於從網頁中獲取所需的結構化的數據)
3、另外一個利器:Beautiful Soup
第四課. 保存數據(第二天下午)
1、文件存儲格式介紹
2、文件讀寫
3、庫:csv,pandas,os,用於創建文件夾和存儲數據
4、合並數據
5、初級爬蟲實戰:鏈家、校友捐贈
第五課. 高級爬蟲進階(第三天上午)
(動態網頁及反爬蟲知識)
複雜動態網頁:
1、 抓包知識與操作詳解(核心)
2、 請求網頁的方式:get和post
3、 靜態網頁和動態網頁
4、 json格式數據獲取和存儲
常見反爬蟲策略:
5、 headers簡介及作用
6、 cookies簡介及作用(反爬蟲+模擬登陸)
7、 控製頻率
8、 驗證碼識別
第六課. 複雜動態網站實戰(第三天下午)
(將所學應用於實戰,使學員熟悉使用模板來應對未來可能遇到的不同類型、不同難度的網頁爬蟲)
1、爬蟲總結
2、案例一:空氣汙染
3、案例二:電子警察
4、案例三:中國土地市場網
5、案例四:法律之星
6、案例五:私募基金
7、案例六:投資中國
8、案例七:專利數據
講師簡介
葉澤心,西南財經大學經濟與管理研究院,四川爬爬帥數據科技有限公司首席技術顧問,曾獲全國大學生數學建模競賽一等獎。擁有非常豐富的經濟金融及社科類數據爬蟲經驗,對各類網站的數據抓取情況都非常熟悉,總結出了一套完整係統而又簡潔實用的數據抓取方法,抓取過國家統計局、環保部、大眾點評、中國土地市場網、公眾環境研究中心等上百家網站的公開數據。
課程詳情
目的:幫助研究者輕鬆掌握抓取網絡數據的方法,享有獨家數據,發表高質量論文
時間:2017年10月20日-22日(三天)
地點:重慶市(詳細地點另行通知)
安排:上午9:00-12:00;下午2:00-5:00;答疑5:00-5:30
費用:1800元/人
規模:為保證教學質量,本次特訓營限額70人(含學術中國vip會員)。
參與對象:希望突出是針對經管和社科類的人群
課程目標
1. 快速係統掌握Python網絡爬蟲,在最短的時間內,了解Python和網絡的基本知識、爬蟲的原理和流程,節約大量學習的時間成本和試錯成本
2. 親自動手寫爬蟲,學會解決異常和問題,搭好爬蟲框架,方便程序的複製和移植
3. 掌握基本功,熟悉各種概念,形成自己的爬蟲體係,並進一步掌握複雜、動態頁麵的高級Python爬蟲以及反爬蟲策略
報名谘詢
谘詢聯係人:
財務發票服務支持:
長按上方二維碼識別報名
注意事項
2. 本次特訓對參與者的Python編程基礎沒有任何要求
3. 本次特訓核心內容均為原創,暫無指定教材或網絡課程
4. 參與者會得到電子版的內部課件及爬蟲源代碼以便後續鞏固
5. 食宿及交通費用自理
6. 結束後,在QQ群/微信群中可繼續享受長期免費答疑
7、報名截止日期:2017年10月15日 17:00(具體截止日期根據實際招生而定,人員招滿,將會立即關閉報名通道)。
8、如您報名後有事不能參加,請在報名之後的10-15天之內辦理退費,並將收取6%的手續費!2017年10月6日17:00之後不再接受退費!人數不滿30人不開班!
9、本次會議可提供增值稅普通發票,如需開具,請在購買時點開“是否開發票”項,並根據自己單位財務部門要求填寫抬頭和類目信息(一旦開具不能重開),發票類目為:網絡會議費、信息服務費、會議費、谘詢費,報名時可以直接任選其一,其他類目無法開具。信息填寫完整的老師可現場領取發票。
FAQ
1. 什麼是網絡爬蟲?
網絡爬蟲是一種按照一定的規則,自動地抓取網頁信息的程序。因此,人們根據自己的需求,編寫程序製定網絡爬蟲使其自動地抓取特定網頁的信息。網絡爬蟲可以使計算機代替手工做事,大大提高獲取數據的效率。
2. 為什麼要學習網絡爬蟲?
經濟學家的研究也越來越離不開數據的支持。以 2012 年第 1 期的《經濟研究》為例, 11 篇學術文章, 除了一篇純理論研究的文章外,其餘 10 篇均引用了各種數據。 在中國經濟學工作者常常訪問的論壇裏也充斥大量關於數據的下載、交換和交易的信息。 為了獲取所需的數據, 經濟學家不得不投入大量資金來搜集、 購買各種數據庫。如果數據已經被很好的整理,即使需要高價購置,對經濟學家而言已屬幸運,實際上很多研究所需的數據往往無處尋覓或者分散在多處。 好在隨著互聯網的發展,電子商務、電子政務的逐漸推廣,部分數據在網站上直接公開了,隻是並未以良好的格式加以組織、對研究者不夠友好。
——鍾鋥光《經濟學家也要學點網絡爬蟲技術》
不僅僅是經管類研究,在社科類研究中,使用爬蟲技術,能方便、大批量的抓取網站上的數據,占得先機,擁有自己獨特的數據庫,用於實證研究,發表高水平論文。
3. 為什麼選擇python?
(1)語言開源免費,簡單易懂,非常容易上手,效率高
(2)強大的數據處理功能,能夠便捷地對數據格式化、結構化
(3)非常豐富的模塊,隻需導入相應模塊就可實現各種功能,研究者可以避免瑣碎的語法,將精力集中在功能的實現上
(4)相較C++、JAVA等計算機編程語言,python對於經管及社科類研究者而言更易上手,諾獎得主Sargent據說也在學習python,其與博士生合作編寫的《Quantitative Economics》中的案例正是基於python語言。
4. 學習該課程會有什麼收獲?
(1)快速係統入門python網絡爬蟲,在最短的時間內,了解python和網絡的基本知識、爬蟲的原理和流程,大量節約學習的時間成本和試錯成本。
(2)掌握基本功,熟悉各種概念,為後續開展自己的python爬蟲項目打下堅實的基礎
(3)親自動手寫爬蟲,學會解決異常和問題,搭好爬蟲框架,方便程序的複製和移植
5. python爬蟲掌握程度分級?
(1)初級:掌握爬蟲和網絡基本知識,能夠自己動手寫簡單的爬蟲,可以抓取靜態網頁數據
(2)高級:了解反爬蟲機製和應對策略,掌握抓包技術,能夠以post的方式請求網頁,解決登錄問題,以及抓取動態網頁數據
(3)專家級:多線程,分布式,主要在於提高數據抓取的效率(學習難度較大,多為計算機專業人才掌握)
學習完本課程可以完全掌握高級程度的python爬蟲,可以滿足研究中幾乎全部的爬蟲需要,學習完本課程後研究者可以自主抓取大部分網站所需的數據用於研究。
6. 為什麼不直接用一些完善框架,例如scrapy?
(1)對於初學者來講,最重要的是理解原理,把基礎學好。很多時候一個問題解決不了,都是因為某些方麵的知識欠缺。本課程力圖為研究者提供一個較為係統全麵而又簡潔強大的爬蟲框架。
(2)一般不建議初學者直接學習scrapy框架,初學就去接觸這些框架很容易學的雲裏霧裏,容易產生困惑,從而產生畏難情緒。爬蟲實際是輕鬆愉快、很有成就感的一個過程,本課程希望帶給研究者這種體驗,從紛繁複雜的語法中脫離出來,直擊爬蟲的要害,從而輕鬆獲取想要的數據,節約更多的時間用以解決研究中的實際問題。
附:抓取過的部分網站列表
1.
網站:中華人民共和國環境保護部數據中心
難度:簡單
任務:獲取全國各城市曆年空氣質量日度數據(AQI和API)
鏈接: https://t.cn/Ryhxjjt
備注:使用空氣質量數據研究環境問題
2.
網站:中國國家統計局
難度:簡單
任務:獲取2014年統計用區劃代碼和城鄉劃分代碼
鏈接:https://t.cn/Rtwvcf0
備注:全國性的大型微觀調查的抽樣階段
3.
網站:前程無憂
難度:簡單
任務:獲取全國各城市不同公司的招聘需求信息
鏈接:https://t.cn/hpsJV
備注:分析不同地區、不同行業勞動力市場需求情況
4.
網站:National Environment Agency
難度:簡單
任務:獲取新加坡空氣汙染實時數據
鏈接: https://t.cn/RotvJ1b
備注:使用空氣質量數據研究環境問題
5.
網站:鏈家
難度:簡單
任務:獲取二手房成交信息
鏈接:https://t.cn/RwFGYbI
備注:二手房相關研究
6.
網站:甜蜜家園(糖尿病論壇)
難度:簡單
任務:獲取所有注冊用戶的信息(包括ID、用戶名、性別、居住地、主題數等)
鏈接:https://t.cn/zOsw2HQ
備注:用戶取名的文本分析、論壇用戶活躍度情況等
7.
網站:西安交通大學校友網
難度:簡單
任務:18032條校友捐款數據(包括捐贈者信息、金額、所捐項目等信息)
鏈接:https://t.cn/Ro5ro7f
備注:校友捐贈行為分析等
8.
網站:百度
難度:簡單
任務:輸入關鍵詞獲取新聞量(例如:上市公司名稱+董事長姓名+年份)
鏈接:https://t.cn/hcB04
備注:衡量輿論或媒體關注等
9.
網站:香港美聯地產網
難度:簡單
任務:獲取香港二手房曆史成交記錄
鏈接:https://t.cn/RpZUQbw
備注:香港房地產市場相關研究,官方途徑購買賬號使用該數據需2.5萬港幣一年
10.
網站:中國土地市場網
難度:中等,以post方式請求網頁
任務:獲取縣級土地交易信息
鏈接:https://t.cn/R4hycIz
備注:房地產、就業等研究
11.
網站:Weather Underground
難度:中等
任務:獲取城市日度天氣條件數據
鏈接:https://t.cn/RotvoUS
備注:使用天氣數據研究相關問題
12.
網站:交通安全綜合服務管理平台
難度:中等,需要會抓包
任務:獲取各城市電子警察信息
鏈接:https://t.cn/R4WRIso
備注:城市經濟學的研究
13.
網站:中國各地最低工資
難度:困難,需要會抓包
任務:獲取全國區/縣級最低工資
鏈接: https://t.cn/RpZUgN8
備注:最低工資的科學製定,勞動經濟學相關課題
14.
網站:淘寶網
難度:困難,動態網頁,需要登錄
任務:獲取買家評論信息
鏈接:https://t.cn/RxRSn3i
備注:消費者行為、信譽評價機製的研究
15.
網站:京東網
難度:困難,動態網頁,需要登錄
任務:獲取買家評論信息
鏈接:https://t.cn/zWkhqc7
備注:消費者行為、信譽評價機製的研究
16.
網站:大眾點評
難度:困難
任務:獲取消費者點評信息
鏈接:https://t.cn/hVxW9
備注:消費者行為、信譽評價機製的研究
其他抓過的網站因涉及到相關老師正在進行的科研項目,暫不公布
更多的網站,更多的數據,等你來抓!
最後更新:2017-10-08 20:18:59