閱讀927 返回首頁    go 阿裏雲 go 技術社區[雲棲]


如何構建大數據層級體係,看這一文章就夠了

我先介紹一下自己:

我之前是網易的,負責整個後台,主要是網易新聞。有三億多的用戶量,這麼大量的用戶肯定會有很多的數據,這些數據怎麼去處理、呈現、規劃,讓它場景化。這就是我之前所做的工作。


今天結合我自己的工作和參考一些人資料做了一些匯總,分享給大家:


下圖是我之前做過的東西

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


第一個是銀河統計係統,這是我在網易負責的一個大數據的一個統計係統。不僅是能夠統計網易新聞每天的安裝量、使用次數,同時也接入了十幾個網易研發的產品,做這一套係統是當時比較大的收獲。


第二個是網易內容發布,也就是CMS。大家在網易新聞上看到的所有內容都是從這個係統發出。當時運營、編輯給我們的提議就是我們不僅要發的準,也要讓大家能夠看到最及時的信息,而且要快。所以這一塊也是需要一定的數據挖掘和數據處理。


第三個紅演圈App。負責整個產品的前端到後端,擔任產品總監這樣一個職位。


這一次分享的目的是讓不同角色的人了解大數據時代用過什麼,怎麼做。


分享大綱


我個人把公司的創建大數據體係分成6大類,從低到高是逐漸升華的過程,接下來我會介紹每一層級怎麼去做,怎麼去建立大數據體係。


這是我的分享大綱

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


第一層,要有基礎的平台;

第二層,有了數據之後我們怎麼去呈現;

第三層,呈現出數據之後怎麼群用;

第四層,在用的過程中怎麼分門別類的去細化;

第五層,怎麼將我們使用的東西推廣到外麵去,讓別人也可以用;

第六層,也就是公司高層戰略決策要用到的。



一、數據基礎平台



首先,最基礎的數據采集平台,這一塊會牽扯到一些技術方麵的內容。對於概要的內容大家有一點印象就可以。


其實大家不用知道每一塊的含義是什麼,如果你想知道的話可以自己去百度。我這裏主要講的是你要有數據采集,數據存儲,之後怎麼去處理,然後怎麼去使用數據,最終讓我們搜集的數據和運營出來的數據達到一個循環。


無論阿裏也好騰訊也好,最底層的也是使用的這個架構。采集-->存儲-->分析--->呈現


這個是騰訊的數據平台

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


下麵是我14年收集的數據,什麼叫大數據,從數據的量上就是很大。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


接下來是阿裏這一塊。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


阿裏和百度有一點不同在於他所需要用到的東西指向商戶,包括各種各樣的小商家。


所以對於阿裏來說,他對數據的應用會更細,偏向於電商領域。阿裏數據數量級也是很大的。


接下來是數據基礎平台的變遷

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


過去:

我們隻是簡單的跑一下技術報表,會一些搜索語句,導出來之後使用辦公軟件處理。這是最早的處理方法,簡單,但是數據存儲的成本很高。


現在:

更多的是會用到一些計算,把實體資源虛擬化成數據。


未來:

智能化的數據處理方式,更快、更完善。總之隨著技術變遷,數據處理這一塊也會不斷的發展。



二、數據報表與可視化



這裏先給大家一些例子,首先是阿裏。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


針對數據存儲的可視化的界麵。


優點:

數據平台結構很清晰,用各種不同的圖表去呈現現在的數據資源的存量以及數據變化的情況;其次是個人與數的據關係明確,你可以看到自己所負責的數據處理的一個情況。


缺點:

數據報表太多了,看不過來。其次就是平台訪問量不高。


這是阿裏數據可視化的一個呈現。具體記錄各個表的存儲量有多少。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


更細一點的話不僅是告訴大家存儲的量有多大還要說明具體關係是什麼。當我在查詢的一個關鍵詞的時候都可以呈現各個表之前的關係,適合於特別大量的數據存儲。


再繼續,這是針對他每一個表的詳細介紹。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


下麵來說說騰訊


騰訊會把自己的係統分為不同的平台。不同的平台會有不同的用處。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


從表中可以看到騰訊對數據重視度很高。他們的數據平台相對於阿裏來說簡單一些。


接下來說一說第三方的數據平台


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


如果有不清楚的話大家可以去查一下,一些大公司的話也會去做一些開放的數據平台,比如騰訊雲分析、百度統計。阿裏無線數獨已經關掉了,無論大的平台還是小的都對數據的重視度很高。



三、產品運營與分析



接下來通過可視化的數據運用起來。在這裏隻是對這一部分工作做一些介紹,點到為止。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


現在一般我們運營,包括產品所做的工作都要對用戶行為進行分析,通過不同的呈現方式得出不同的點擊量來決策我們應該使用哪一種方案。


接下來是漏鬥模型。就是走一個流程,從開始到最後用戶流失的一個情況,以此來評價我們做的方案決策是否合適。


第三是收入效果的監控分析,主要是付費轉化率、渠道效果數據。這會使用在和第三方的合作上,需要檢測這個錢在花出去之後有沒有用。


第四是業務長期健康分析。從用戶流動模型、產品生命周期分析產品成長性和健康性。


最後一個是營銷推廣的一個實時反饋。運營的同學實在熟悉不過了。我們舉辦一個活動,最後我們要統計出來這個活動具體帶來了多少用戶,多少注冊量。


接下來介紹一下怎麼進行數據分析。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


舉一個例子,在我們做了一個新功能,怎麼去驗證這個功能是否合理?


事前要預測好,這個東西在上線之後會帶來多少的用戶,事先要有一個大概的預估。


事中,需要做到的是采集哪些數據,收集數據。比如檢測一個點擊按鈕,用戶點擊了多少次,有多少用戶點擊了。如果檢測的點多了就要用到用戶的行為分析,通過用戶點擊的一係類的點,我們大概猜出來用戶要實現什麼樣的功能。


最後,收集了數據之後,我們就要進行分析。用戶在什麼時候點擊了多少次,消耗了多少的流量。通過分析我們有沒有得到什麼結論,包括用戶是不是健康,數據是否安全,流程是否好的。這就是數據收集到之後我們要想的一些問題。


下麵是YY的例子

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


不同的按鈕,顯示不同的名字可能會有多少人去點擊。這個可以在web端和PC端可以很好的去實現。


漏鬥模型

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


如果我們要做漏鬥模型的話就要標識出要在哪一個部分得到一個怎麼樣的數據,對不同的階段做不同的數據分析。千萬不要從漏鬥的點到漏鬥的頂去分析,這是沒有意義的。


用戶的運營模型

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


將我們的數據模型化,通過一定的維度將用戶拆分。什麼樣的數據屬於什麼樣的用戶。要將這些數據用來指導我們將來的工作。


這個是騰訊的用戶模型分析

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


這是騰訊對不同的鑽的會員做的分析。ppt上紅色的用戶喜歡QQ秀的衣服,願意消耗多少點的Q幣。通過不同運營的方法走不通的分支,去采集不同分支的數據來驗證分支的走勢是否真確,是否受歡迎。


這是某個公司每天持續發布的報表

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


做報表的目的就是每天做監控。一種是我們自己數據的變更,還有一種就是競品數據變更。如果可以做到這兩點的話對產品的迭代是有用的。


運營日報,主要是針對產品運營的人來說。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


記錄不同的活動帶來的不同的數據。涉及用戶留存,拉新等等。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


又是大型的公司內部就會有專門的分析團隊。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


再介紹一下用的比較多的做數據分析工具,EXCEL和SPSS。我一般用EXCEL比較多一些。SPSS是麵向很大數據的時候經常使用到,它數據挖掘的功能特別強大。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


對於產品經理我們應該在數據運營中定位自己是一個什麼樣的角色。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


從大的方麵說,每一個公司對於產品經理的定位都至少要有一項基本技能,那就是數據的分析技能。但是從我的經驗發現很多公司的產品經理在數據分析方麵是非常非常弱的。



四、建設數據化的運營體係



接下來通過可視化的數據運用起來。在這裏隻是對這一部分工作做一些介紹,點到為止。


怎麼去建議我們的BOSS去建立一個數據化的運營體係?


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


規範很重要,這是數據采集的一個根本東西。規範製定失敗最後造成一個什麼樣的結果,就是A和B說的一個數據指標指向的東西不一樣,比如關於活躍用戶的定義,這就導致出來的數據結果不一樣。


接下來是展示的平台。這需要產品知道要采集什麼數據,並且把需要的數據給開發。


再往上就是數據倉庫,在收集數據之後放到倉庫中,去分析用戶的興趣愛好。

最後是人。專業的人做專業的事。


舉一個具體的例子:騰訊

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


這還隻是一個黃鑽的運營體係建設,再接下來時騰訊的用戶生命周期。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


不同的時間階段,不同的用戶處於不同的生命周期。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


這是營銷活動運營監測的一個數據。



五、數據產品



640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


廣點通,現在已經滲入微信了。在微信後麵會有大量的數據處理,他會分析不同的客戶。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


阿裏的數據更多的涉及到商家和所買的貨物。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


數據魔方,主要提供行業數據分析,店鋪數據分析。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


百度預測:預測了一些流感,城市旅遊,以及世界杯,準確度挺高的。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


司南:可以用來做用戶畫像,人群分析。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=



六、戰略分析與決策



最後是對於產品經理的一些建議。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=



七、Q&A環節



1、微信有哪些是可以用於商業化變現的?

 

微信上麵承載的東西很多,那就需要看他想往哪個方向發展。微信是一個平台,對於微信本身的商業化,它更多的是買流量,據我了解現在商業化的方式是微信朋友圈廣告。


後續他要做商業化,可能要往電商上發展,商業號出來之後,本身不會參與到你的運營當中,可能是會收取一些租金。但是微信不可能去做微信商城的。


2、能不能通過抓取其他站點的數據來進行數據分析?


想法和實操還是有些差距的。別人的訪問量高,並不一定是單純的因為他文章寫的好,可能還會有他的一些運營手段,以及他的一些人脈,這些都會導致他的站點是比較火的。


當然內容也是不可或缺的一部分。這個方案是可行的,但是在你實際的操作的過程中可能是不一樣的。建議在實操的過程中多思考,不要認為別人怎麼做自己就怎麼做。在抓取到的數據上做一定過濾和加工。可以去監控競爭對手的內容,考慮他們為什麼要這麼做。


3、怎麼去測試一個應聘者在數據、運營、產品上的能力?


說句不客氣的話,我特別喜歡虐應聘的。一方麵是基礎的一些概念他一定要懂,哪怕你可以說錯,但是不要沒有聽說過這個概念;另外一個方麵就是基本的分析方法,比如做內容方麵的,怎麼去評價內容的好與壞,從細節處去提問應聘者。


4、如何對微信訂閱號的用戶做一個分析?


一個微信公眾號後台有多少關注,將用戶分層,什麼年齡段,用什麼手機。通過調查問卷,去詢問我們的用戶對於什麼樣的內容比較感興趣以及願意去推廣什麼內容。這是簡單的做法,複雜的就要涉及到假設檢驗。


5、網易雲音樂,如何運營社區良好的討論氛圍,對於社區中的不良言論該如何屏蔽與取舍?


UGC如何做到一個良性的循環。隻要是有UGC的產品都是會越到這樣的問題。關於如何過濾垃圾內容、提升社區質量,大家可以到我的簡書(搜索申悅)上去看我翻譯的十幾篇連載的文章。


B站通過注冊提問提高用戶門檻來提升用戶,知乎之前也是提高門檻來提升用戶質量。增加用戶投票機製,比如知乎通過反對和讚成過濾信息,或者通過屏蔽去除劣質的內容,讓用戶自己去幫你篩選優質信息。第三是係統提供一些功能屏蔽過濾劣質內容,最後就是去培養一些優質的用戶,讓他們源源不斷的為社區提供優質的內容,這個就要涉及到社區激勵的機製了。


6 我們在做用戶畫像的時候遇到大量的數據無法下手,還有就是我們應該側重於用戶的什麼屬性?


一方麵自己做,另一方麵給第三方平台做。用第三方平台做的話隻需要將數據導入給他做分析;自家做的話,要根據用戶的使用場景、產品的定位來分析。


不同領域的產品所做的是不一樣的。對於用戶做進一步的細分,簡單的方式是將自身的用戶給維護好,舉個例子,你想知道自己的用戶他們對那些板塊感興趣,那你就要將自己的用戶資料給完善(比如性別,年齡),然後分析對這些板塊感興趣這一批人。

添加老師 微信 cdagood領取價值2999元數據分析資料!!

最後更新:2017-09-18 15:33:51

  上一篇:go  【C++】多態總結
  下一篇:go  三個經典的數據分析故事,你都知道嗎?