閱讀67 返回首頁    go 阿裏雲 go 技術社區[雲棲]


創業公司如何做數據分析(一)開篇

在過去的一年裏,筆者加入了一家移動互聯網創業公司,工作之一便是負責數據業務的建設,陸陸續續完成了一些數據係統的實現,來滿足公司的數據需求。在創業公司中做數據相關的事情,而且是從零做起,肯定不像很多大公司那樣分工明細,所有的工作都要保證在有限的資源下來滿足需求。回想起來也蠻有意思,因此想做些總結分享,結合我們的係統來談一談如何做數據分析。如果有寫的不好的地方,還請網友指正。
作為係列文章的開篇,本文將按照“WHY->WHAT->HOW”的思考方式來闡述下麵三個問題:

隨著移動互聯網的發展和大數據思維的普及,越來越多的創業者、投資人開始重視數據的作用,而不再是隨便拍腦袋。“數據驅動決策”、“精準化運營”、“產品快速迭代”這些概念被越來越多的人提出和使用,其背後都離不開精準的數據分析。對於大多數互聯網創業公司來說,其背後沒有強大的資源與財主支撐,如何在有限的人力、物力下快速摸索、少走彎路是至關重要的,而基於“數據驅動”來做決策、運營與產品將起到一個關鍵的作用。讓我們來看兩個例子。
【例一】
微信公眾號早已成為各家運營的主戰場之一,利用微信的關係鏈來轉發H5海報頁麵是眾多線上活動和拉新的一個重要方式。然而,。數據,便是關鍵!該活動帶來的瀏覽量、分享量、新注冊用戶數、用戶留存率都是重要的指標,而這一切都離不開有效的數據追蹤與分析。如果同時有100個這樣的渠道活動,如何統籌各個數據分析也將是一件無法忽視的事情。(下圖呈現的是某次活動的傳播網絡的一部分)
創業公司如何做數據分析(一)開篇
【例二】
每逢節假日,國內各個旅遊景點都是人山人海,盡管大家都知道外出遊玩會遭遇這種情況,但是還是抱著一絲僥幸心理出行,畢竟好不容易有了假期嘛。在今年十一時,筆者就曾利用百度景區熱力分布圖來提前觀察,從而避開了一些高峰期和人滿為患的景區,大家不妨也試一試。
回到正題,,畢竟全麵開花、四處征戰的方式是不適於創業公司的。通過位置數據,來分析用戶集中在哪些區域,主要分布在商業區還是高校,是否受到交通因素影響等等,當然,具體需要結合業務來做了。另一方麵,還可以聚合出用戶的常駐位置,可以對用戶位置與商戶位置的距離進行分析等等,從而形成推薦方案,優化產品與服務。
創業公司如何做數據分析(一)開篇
WHAT
對於大多數互聯網創業公司,在做數據分析時,一定要結合自己的業務,把握一個度,在投入可控的範圍內達到效果即可。數據深度挖掘、機器學習、推薦算法等等,這些技術名詞背後都需要投入一定的人力、物力來支撐,即使是大廠來玩,產出也相對有限,而且很多時候實際工程效果不盡人意。舉個列子,很多高端的“推薦算法”在投入使用後,其效果遠不如“看了又看”來的簡單有效。當然,如果你的公司就是做數據這方麵的業務,那是另一回事了。
要搞清楚需要做什麼,不妨先結合自身業務思考一下,現階段自己需要什麼數據來驅動決策、運營與產品。具體業務方麵的數據需求,各家都不一樣。從筆者接觸的情況來看,
從流程上看,需要做的事情集中在三部分:,伴隨著數據的變遷:原始數據->分析結果->圖表呈現。首先,基礎數據源的建設是做好數據分析的關鍵,因為如果數據源本身出了問題,那麼後麵做的所有工作都是沒有意義的,而且如果沒有提前做好數據采集,後期想做分析時也沒有數據可做。
其次,數據分析的最終結果是需要呈現給別人看的,可能是公司高層,也可能是市場業務人員,直接將一堆數據丟給他們顯然是不現實的,通常都需要轉換為圖表的形式,這便是數據可視化的工作。而從原始數據源到分析結果的過程,便歸納為數據處理,其涵蓋了數據提取、數據建模、數據分析等多個步驟。
創業公司如何做數據分析(一)開篇
HOW
現如今國內的互聯網環境發展的越來越好,第三方服務提供商越來越多。所以很多情況下我們都有兩個選擇:接入第三方、自己做。
數據分析這塊,便有很多第三方服務,筆者將其劃分為傳統數據統計服務與新興的數據公司。前者以百度統計、google analysis為代表,通過嵌入其SDK在前端采集數據,在後台便可以查看相應的統計數據。這種方式的好處是簡單、免費,使用非常普及,是很多初創企業的首選。
缺點也很明顯,一是這樣的統計隻能分析一些基本的訪問量、點擊率、活躍用戶量,滿足基本需求,無法結合業務數據來做深度分析;二是需要在前端很多地方埋點上報,耦合性較強;三是數據存儲在第三方的服務器中,無法直接獲取到數據源。
後者以神策、GrowingIO、諸葛IO為代表,這些公司也正是看到了傳統數據統計服務的缺點,從而提出相應的解決方案,各有特色。但是,需要不菲的接入費用,私有部署的費用更多,而這筆費用對於一個初創企業來說,還是蠻多的。另一方麵他們更加側重於電商領域的數據分析,因為這個領域的分析模式已經基本成型,適合做成模板來使用。
選擇自己做的話,可以結合自身的業務,做的更靈活,同時也可以盡早摸索數據業務,逐步建立相應的數據係統。當然,自己做並不代表是造輪子,而是要充分利用開源框架來實現相應的功能。
鑒於各家的業務都不同,而拋開業務談架構都是耍流氓,所以在接下來的文章中,筆者將結合自己接觸的業務來探討一些數據係統的實現。下圖所示便是現階段我們的數據係統架構,主要分為數據采集、數據處理與數據應用三層。
從下往上,數據采集層負責從前端App、H5頁麵、服務器日誌采集數據,通過Kafka接入後存入Elasticsearch與neo4j中,同時業務數據庫也是很重要的數據源;數據處理層負責數據的抽取、清洗、建模,然後存入MongoDB與MySQL中,整個過程由Airflow任務調度管理係統來進行管理與監控;產出的數據最終提供給應用層使用。
創業公司如何做數據分析(一)開篇
也許有人要說,連Hadoop都沒用到,怎麼號稱自己在做數據分析呢。筆者曾經也做過考慮和嚐試,最終暫時擱置了Hadoop,主要是數據增長相對緩慢並且沒有很明顯的需求,目前這個架構可以在較長一段時間內應對數據需求了。
作者:Mr-Bruce來源:36大數據

最後更新:2017-04-10 10:29:58

  上一篇:go 工業吸塵器對與企業來說的重要性
  下一篇:go 為什麼 Python 對程序員重要?