閱讀364 返回首頁    go 技術社區[雲棲]


如何用2周時間促成一次1700+人參與的大數據行業調研



0?wx_fmt=jpeg

 前言


1213號,問卷發出;截止1231號,收到1416份回答,並製作2016大數據行業從業者調研報告》精華版11號倫敦當地時間中午,北京當地時間晚上820分,經過反複修改和確認,報告精華版發布於大數據文摘微信公眾號。

分析過程中,我們有以下三個主要發現:


  • 1、數據、數據分析(包括大數據分析)受到我國企業重視,多數企業擁有數據決策團隊,並將增加數據項目的投入,表明大數據行業發展態勢良好,具有可觀市場前景。

  • 2、我國大數據行業處於上升階段,目前對大數據的利用有限,未使用雲架構,數據分析集中在商業、市場和用戶方麵,主要工作為進行預測分析。這是由人才和企業兩方麵決定的:行業從業者工作時間短,多數企業實施數據項目時不知道如何最大化利用數據。

  • 3、科技行業和民企是我國發展大數據的中堅力量。目前的行業從業者多數持有碩士文憑,可塑性強;較高的薪資將吸引更多高學曆人才。


見證了整個調研、成稿的小編私信我說,推送前從來沒有這麼緊張過。

640?wx_fmt=jpeg 

發布後,我們得到了不少讀者的積極回饋,後台又收到了補填問卷近200份。出於對所有填寫問卷人的感謝和責任感,11號當天,我們用最新的數據從頭開始進行了新一輪分析,並完全修改了之前做好的報告完整版(共32頁PDF,報告主要結論未產生變化),12號完成。

 

截止13號,完整版報告(32頁pdf)郵件發布,並發送給了參與調研的所有1734人。

 

在此再次感謝所有抽出寶貴10分鍾填寫問卷的各位讀者,填寫過大數據文摘《2016年大數據行業從業者調研》問卷的讀者朋友,如果仍然沒有收到完整版報告,請點擊閱讀原文補填郵箱。如果仍希望獲得完整報告,也可以點擊“閱讀原文”補填問卷。

 

 2個周時間 和 1700+人參與


在這半個月裏,遇到了無數問題,給出了無數解決方案,得到許許多多人的幫助。

 

最意外的問題是給1700人發郵件:完整版做好之後,本來以為不會再有問題了。而這時出現了意料之外的情況:群發郵件無法發送。各大郵箱服務商提供的免費郵箱一天隻能發送400個郵件給陌生人,為了防止垃圾郵件,每次大概隻能發送給20人。於是又和北京的團隊工作到北京時間半夜,嚐試各種方法,也隻成功將完整版報告發給了一部分填寫者。最後,我們通過搭建群發服務器才終於在14號將所有郵件發送完畢。

 

為了配合團隊完成工作,跨年的那幾天,更是除了保證了必要的睡眠和運動外,剩下的時間都在工作。橫跨8個時區的工作接力其實很有意思:我早上起來打開電腦查看北京最新的進展,和北京的團隊一起工作到我的下午(北京的晚上),北京那邊睡了我繼續工作到我的晚上,我睡覺的點正好趕上北京的團隊第二天早上起來完成工作交接。

 

之前在乙方工作的時候,凡事都要滿足客戶的需求,加班也是難免的。當時盼望去甲方工作,覺得從此可以不再加班、不再給PPT調格式、走向人生巔峰。而當我真正和大數據文摘一起,為了讓大數據行業現狀更加清晰、讓更多人了解大數據行業發展,做這樣一份公益性質的調研(報告免費發送給所有參與調研的人)的時候,我終於發現,做自己想做的事,如果想做好,更要加班。但是這種加班是這樣的體驗:

 

做成一件事不容易,但做喜歡的事情是快樂的。

 

習大大新年賀詞說擼起袖子加油幹,在我的理解中,這就是一種企業家精神(Entrepreneurship),是一種不斷解決問題的精神。能做事,能把事情做成,這是執行力。企業家精神和執行力,這是創業的環境和整個社會都需要的。

 

32頁,58張可視化圖表,我學到了什麼?

 

在與大數據文摘給力的團隊的溝通與討論中,通過在數據領域有豐富經驗的專業人士的反饋,我對數據分析師的工作產生了新的理解。對於谘詢師和分析師來說,看到背後的聯係、給出建議是特別重要的能力。之前我的理解裏,可視化的意義就是不需要別人看文字,就能理解圖片在說什麼。對於一份PPT來說,就是每個圖片的標題應為圖表內容總結,且不超過兩行。但是發布一份報告和之前做PPT講給客戶不同,報告本身不能僅僅是分析結果的堆疊,而是需要引導別人看到分析中有價值的部分(講PPT的步驟)。

 

分析中最有價值的部分,就是讀者最關心的部分。最開始我隻能把問卷的每個問題都做一個圖,展示選哪個選項的人最多;也做了一些交叉分析,比如年收入和學曆的關係,但是沒有得到要領。直到得到團隊和導師的反饋我才明白,最有價值的部分就是讀者最關心的部分,而這部分內容應該變成報告的關鍵結論。比如投資是否增加、行業間的區別,是投資人、領導等關心的;工資是從業者關心的。

 

得到要領之後,給出分析結論和報告的編寫也更有邏輯了。比如,最開始報告分成四個方麵:機構,數據團隊,個人,技術。後來,變成了三個方麵:樣本分布、數據團隊和投資,大數據應用現狀(包括技術和工資)。這是公司和個人層麵最關心的角度。

 

寫到最後對數據分析結果擁有最終解釋權的時候覺得,哇。審計師簽字的感覺。

 

我明白了調PPT格式的工作是無法避免的,隻能盡量簡化和優化工作步驟。因為我們要追求專業性,而格式統一、沒有錯別字等,就是讀者對一篇文章的第一印象。

 

客戶的需求,也是無處不在的。滿足客戶需求,就是做事時考慮對方,寫作時考慮讀者。語言是有歧義的,表達自己的時候,永遠考慮到底想通過這句話說什麼、為什麼而說,為什麼這句話要在文章的這個位置出現,而沒有出現在上一段或上一句話的位置?

 

看著報告每一版都比上一版優秀、分析也越來越深入,我明白了人是變化、發展、成長的。同樣的,報告也是。對於一份作品,我有些完美主義的要求,但是我意識到,我應該增加我的包容能力,並且更好地發掘人的潛力。感謝大數據文摘敬業的團隊,和我一起加班,給我充分的信任;感謝幾位經驗豐富的導師付出寶貴時間,用專業的工作態度作出指導和反饋;感謝朋友們提供的各種幫助;感謝讀者們的支持。我有足夠的理由相信,這群有激情、有能力、愛分享的人,一定能走得更遠。

  

跨年那天,我在倫敦郊區的公寓裏對著電腦屏幕上的圖表,不遠處是泰晤士河。倫敦的下午時間開始,每過一小時,就有一個時區告別了2016年,朋友圈裏進入新年的朋友不斷發送著祝福。突然,我聽到了轟隆轟隆的炮竹聲,看一眼屏幕右上角,零點了。全城放起了震耳欲聾的焰火,泰晤士河邊和遠處的地平線上都是不斷升起來的彩色光點。窗外一個女生大叫著,Happy New Year!在這個時間不可逆的小小星球上的我,這時仿佛聽到了全人類麵向未來的呐喊。


0?wx_fmt=jpeg
窗外的泰晤士河 攝影 | Sophie 


此次調研遇到的一些關鍵問題


在這裏,我們記錄了此次調研遇到的一些關鍵問題,也許能讓讀者朋友有所參考。如果對於這些問題大家有其他建議,可以在文後留言。

 

項目製學習(ProjectBased Learning, PBL)

 

這次調研,就是一個項目。這裏的項目可以看做是一個我們遇到的、想要解決的實際問題(比如,我們想知道大數據行業從業者現狀)。由這個問題展開,我通過查找和閱讀,以及參加公開課程,不斷探索了問卷調查的一般方法,數據可視化和講故事的技巧,並在項目上應用。一篇論文,或者一次小組展示,其實都可以看成一個項目。我認為這種學習方式是最有效的。

  

MECE(Mutually Exclusive,Collectively Exhaustive)相互獨立、完全窮盡

 

這是麥肯錫顧問Barbara Minto在《金字塔原理》提出的,我在不斷的探索和運用。比如最簡單的就是:問卷設計的時候,一道單選題,每個選項之間應該是相互沒有重疊的。有了選項收入0-100,就不能有收入50元以下。而所有的選項加在一起,要能代表問題的所有可能情況(收入0-100>100這兩個選項就可以代表所有可能回答)。這個原則也可以用在分析問題和寫作上。

  

及時保存數據

 

問卷共有28題,包括身份鑒別題(用來實現跳轉)、人口統計特征(demographics)問題、單選題和多選題。問題的內容來自我們的經驗,並綜合了幾個國外現有調查,見參考文獻1234。從問卷到數據,這個過程還算容易。使用了騰訊問卷,可以隨時修改問題內容,實時提供統計結果和原始數據下載(下載.csv.sav格式文件均可)。唯一遇到的問題是,在問卷發出第一天後,我們調整了問卷的問題順序,導致永久丟失了91個郵箱數據。所以建議是,問卷發出後,最好避免調整問卷問題,並及時下載原始數據。

 

 數據分析

 

拿到數據後,第一步是清理數據。我們遇到的問題是想把excel裏的原始數據每個單元格最前麵的A.xxx B.xxx C.xxx裏的A.B.C.(選項的編號)去掉。剛開始試了函數和vba(開始的想法是從用=Right()從最後開始截取每個單元格的值的長度減2),沒成功,因為遇到多選題的空值處理不了。直到做完整版報告的時候,我終於想到找一個text to columnvba代碼(對應excel數據麵板下的文本分列功能,但手動點擊每次隻能分開一列),在每列之間循環,終於把這個問題解決掉了。代碼見附錄。

 

值得注意的是,分析問卷類型的數據時,會遇到多選題的情況,這時原始數據的排列是不利於分析的。比如同一個問題下麵,每一個選項的回答都會成為一列數據(如果選擇了該選項則有值,如果沒有選擇則為空值)。要進行數據分析,最好的選擇是把原來的選項的標題作為一列,選項的內容作為相對應的另外一列,每行表示一個人的一次選擇。

 

比如,原來有填寫人X選了A選項和B選項,填寫人Y選了B選項和C選項。

之前,ABC三個選項分別是三列,A列裏包括填寫人XB列裏包括填寫人XYC列裏包括填寫人Y

A, B, C

X, X, null

null, Y, Y

 

我們要做的就是將它們變成兩列:

X, A

X, B

X, null

Y, null,

Y, B

Y, C

 

 

TableauData Source頁麵,選中要轉化的列,用pivot功能可以實現這一步。參考文獻裏這個博客內容有詳細的步驟5

  

可視化

  

使用了tableau軟件(Tableau Desktop),很好用。分析是實時的,數據源的改變直接反映在分析裏。分析很直觀,把某個變量拖拽至分析區即可。可以很容易地將原始值分組(比如將金融和商業服務業兩個選項組成金融及服務業)。計算的功能操作簡單(table calculation),比如計算選擇該項的人在總人數中的比例,或者交叉分析(比如每個行業裏年收入的各個級別占百分之多少),還有函數可以使用。圖表的美化上,配色美,而且提供多種配色方案。改變圖表很簡單(比如從柱狀圖改為條形圖,對換橫縱軸)。改變圖表的格式很容易,比如按照每個變量的值的大小進行排序、一鍵顯示數據標簽、單獨顯示某個值的數據標簽、更改圖例的內容和格式、更改坐標軸的標題和格式。

 

但是,導出圖片就很不智能。我創建了50多個工作表(worksheet),隻能手動選擇單個工作表導出為圖片,每個工作表要導出為圖片要點擊很多次(單擊工作表-導出-圖片-選擇導出內容-保存)。如果能把所有的圖一次性導出就好了。我可以理解tableau的初衷和主要功能是實時的分析,比如做儀表盤(dashboard),不是為了讓分析師截圖到pdf報告裏的。但是我想肯定也有人遇到報告要做成wordpdf的情況。如果能增加TableauOffice軟件的兼容就好了。

 

做了一些重複工作和錯誤工作

 

第一份分析是1228號的,我想增加12281230的數據,在tableau裏改了數據源,但發現所有圖都不能用了,因為新數據的每列標題改變了(去掉了題號),於是我又重新在tableau裏做了所有的圖。

 

微信版本來僅僅是完整版的重要圖片,臨到發布才發現圖例字體太小,於是重新回tableau裏調整,截新的圖,讓讀者不用點開每個圖片就可以看到圖片上的字。

  

一些其他實用功能

  

word:插入自動編號的圖表說明(caption),統一設置標題的格式,並插入目錄。

excel:篩選(filter),條件格式(conditionalformatting),函數和vba

 

附錄

 

excel文本分列的vba代碼

 

首先確保表格內的所有數據的格式都是aaa.xxx,其中aaa.是要去掉的內容,點前麵的文字長度不限,因為是以點的位置把每列分開

 

在列之間循環,這裏n的值等於表格包括的列數。如果列數是變化的可以自己找一個計算列數的代碼。這裏的Other:=True, OtherChar:="."代表我們用點來分割。這裏點和點之前的內容(aaa.)是要去掉的,所以destinationcolumn自己。range.texttocolumns()還有其他用法,可以自己搜索。

 

 

Sub testtocolumns()

Dim i As Integer

 

For i = 1 To n

 

    Columns(i).TextToColumnsDestination:=Columns(i), DataType:=xlDelimited, _

 

       TextQualifier:=xlDoubleQuote, ConsecutiveDelimiter:=False, Tab:=True, _

 

       Semicolon:=False, Comma:=False, Space:=False, Other:=True, OtherChar _

 

       :=".", FieldInfo:=Array(1, 9)

 

Next i

 

End Sub

原文發布時間為:2017-01-08


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-26 09:33:21

  上一篇:go  紮克伯格的政治野心:2017年他想走遍美國52個州
  下一篇:go  美使館9年pm2.5數據分析:霧霾到底是不是加重了?