創業公司如何做數據分析（一）開篇

在過去的一年裏，筆者加入了一家移動互聯網創業公司，工作之一便是負責數據業務的建設，陸陸續續完成了一些數據係統的實現，來滿足公司的數據需求。在創業公司中做數據相關的事情，而且是從零做起，肯定不像很多大公司那樣分工明細，所有的工作都要保證在有限的資源下來滿足需求。回想起來也蠻有意思，因此想做些總結分享，結合我們的係統來談一談如何做數據分析。如果有寫的不好的地方，還請網友指正。

作為係列文章的開篇，本文將按照“WHY->WHAT->HOW”的思考方式來闡述下麵三個問題：

隨著移動互聯網的發展和大數據思維的普及，越來越多的創業者、投資人開始重視數據的作用，而不再是隨便拍腦袋。“數據驅動決策”、“精準化運營”、“產品快速迭代”這些概念被越來越多的人提出和使用，其背後都離不開精準的數據分析。對於大多數互聯網創業公司來說，其背後沒有強大的資源與財主支撐，如何在有限的人力、物力下快速摸索、少走彎路是至關重要的，而基於“數據驅動”來做決策、運營與產品將起到一個關鍵的作用。讓我們來看兩個例子。

【例一】

微信公眾號早已成為各家運營的主戰場之一，利用微信的關係鏈來轉發H5海報頁麵是眾多線上活動和拉新的一個重要方式。然而，。數據，便是關鍵!該活動帶來的瀏覽量、分享量、新注冊用戶數、用戶留存率都是重要的指標，而這一切都離不開有效的數據追蹤與分析。如果同時有100個這樣的渠道活動，如何統籌各個數據分析也將是一件無法忽視的事情。(下圖呈現的是某次活動的傳播網絡的一部分)

【例二】

每逢節假日，國內各個旅遊景點都是人山人海，盡管大家都知道外出遊玩會遭遇這種情況，但是還是抱著一絲僥幸心理出行，畢竟好不容易有了假期嘛。在今年十一時，筆者就曾利用百度景區熱力分布圖來提前觀察，從而避開了一些高峰期和人滿為患的景區，大家不妨也試一試。

回到正題，，畢竟全麵開花、四處征戰的方式是不適於創業公司的。通過位置數據，來分析用戶集中在哪些區域，主要分布在商業區還是高校，是否受到交通因素影響等等，當然，具體需要結合業務來做了。另一方麵，還可以聚合出用戶的常駐位置，可以對用戶位置與商戶位置的距離進行分析等等，從而形成推薦方案，優化產品與服務。

WHAT

對於大多數互聯網創業公司，在做數據分析時，一定要結合自己的業務，把握一個度，在投入可控的範圍內達到效果即可。數據深度挖掘、機器學習、推薦算法等等，這些技術名詞背後都需要投入一定的人力、物力來支撐，即使是大廠來玩，產出也相對有限，而且很多時候實際工程效果不盡人意。舉個列子，很多高端的“推薦算法”在投入使用後，其效果遠不如“看了又看”來的簡單有效。當然，如果你的公司就是做數據這方麵的業務，那是另一回事了。

要搞清楚需要做什麼，不妨先結合自身業務思考一下，現階段自己需要什麼數據來驅動決策、運營與產品。具體業務方麵的數據需求，各家都不一樣。從筆者接觸的情況來看，

從流程上看，需要做的事情集中在三部分：，伴隨著數據的變遷：原始數據->分析結果->圖表呈現。首先，基礎數據源的建設是做好數據分析的關鍵，因為如果數據源本身出了問題，那麼後麵做的所有工作都是沒有意義的，而且如果沒有提前做好數據采集，後期想做分析時也沒有數據可做。

其次，數據分析的最終結果是需要呈現給別人看的，可能是公司高層，也可能是市場業務人員，直接將一堆數據丟給他們顯然是不現實的，通常都需要轉換為圖表的形式，這便是數據可視化的工作。而從原始數據源到分析結果的過程，便歸納為數據處理，其涵蓋了數據提取、數據建模、數據分析等多個步驟。

HOW

現如今國內的互聯網環境發展的越來越好，第三方服務提供商越來越多。所以很多情況下我們都有兩個選擇：接入第三方、自己做。

數據分析這塊，便有很多第三方服務，筆者將其劃分為傳統數據統計服務與新興的數據公司。前者以百度統計、google analysis為代表，通過嵌入其SDK在前端采集數據，在後台便可以查看相應的統計數據。這種方式的好處是簡單、免費，使用非常普及，是很多初創企業的首選。

缺點也很明顯，一是這樣的統計隻能分析一些基本的訪問量、點擊率、活躍用戶量，滿足基本需求，無法結合業務數據來做深度分析;二是需要在前端很多地方埋點上報，耦合性較強；三是數據存儲在第三方的服務器中，無法直接獲取到數據源。

後者以神策、GrowingIO、諸葛IO為代表，這些公司也正是看到了傳統數據統計服務的缺點，從而提出相應的解決方案，各有特色。但是，需要不菲的接入費用，私有部署的費用更多，而這筆費用對於一個初創企業來說，還是蠻多的。另一方麵他們更加側重於電商領域的數據分析，因為這個領域的分析模式已經基本成型，適合做成模板來使用。

選擇自己做的話，可以結合自身的業務，做的更靈活，同時也可以盡早摸索數據業務，逐步建立相應的數據係統。當然，自己做並不代表是造輪子，而是要充分利用開源框架來實現相應的功能。

鑒於各家的業務都不同，而拋開業務談架構都是耍流氓，所以在接下來的文章中，筆者將結合自己接觸的業務來探討一些數據係統的實現。下圖所示便是現階段我們的數據係統架構，主要分為數據采集、數據處理與數據應用三層。

從下往上，數據采集層負責從前端App、H5頁麵、服務器日誌采集數據，通過Kafka接入後存入Elasticsearch與neo4j中，同時業務數據庫也是很重要的數據源;數據處理層負責數據的抽取、清洗、建模，然後存入MongoDB與MySQL中，整個過程由Airflow任務調度管理係統來進行管理與監控;產出的數據最終提供給應用層使用。

也許有人要說，連Hadoop都沒用到，怎麼號稱自己在做數據分析呢。筆者曾經也做過考慮和嚐試，最終暫時擱置了Hadoop，主要是數據增長相對緩慢並且沒有很明顯的需求，目前這個架構可以在較長一段時間內應對數據需求了。

作者：Mr-Bruce來源：36大數據

最後更新：2017-04-10 10:29:58

創業公司如何做數據分析（一）開篇

上一篇：工業吸塵器對與企業來說的重要性

下一篇：為什麼 Python 對程序員重要？

相關內容

熱門內容

最新內容

創業公司如何做數據分析（一）開篇

上一篇： 工業吸塵器對與企業來說的重要性

下一篇： 為什麼 Python 對程序員重要？

相關內容

熱門內容

最新內容

上一篇：工業吸塵器對與企業來說的重要性

下一篇：為什麼 Python 對程序員重要？