數據即金錢,中小企業如何搭建數據平台分得一杯羹?
據作為企業的核心競爭力,企業的DNA。那麼什麼是數據呢?
IT時代的IT主要是信息技術,即企業的一切信息例如:企業員工信息,客戶信息,產品信息等。信息主要用於描述企業員工、描述客戶、產品等,通過信息可以大致了解員工,客戶,產品等的基本情況。
DT時代的DT主要是指數據技術。數據是用來準確衡量信息的,例如公司有多少員工,本科以上占比,客戶總量,區域客戶量等。某種程度上可以這樣理解:信息是一種概括的描述,通過信息可以描繪出企業的大概情況,而數據可以精準的描述信息,將信息量化以展示。
當然了,信息和數據的區別上述隻是我個人的理解,在我看來,單純區分二者的區別可能沒太大的意義,將二者結合起來,迎合時代浪潮,做好向DT數據時代的過渡才是關鍵。
數據平台作為企業數據化的一個重要組成因素,必不可少。現在有很多互聯網包括傳統企業等都在搭建自己的企業數據平台,通過數據平台量化企業各項經營指標,深度剖析企業經營狀況,為企業的科學經營提供幫助,進而實現持續盈利的目的。可以說,企業不管是做信息化還是做數據化,都是為了幫助企業科學管理,科學經營決策,都是以實現持續盈利,最大化盈利的目的。
什麼是數據平台
我個人的理解是:數據平台是指將公司的所有數據以及關聯數據(例如行業數據,競爭對手數據等)進行收集,按照規則處理,並根據特定的主題進行分析,展示,以便準確地剖析企業經營情況,達到指導公司科學經營和決策,並以實現企業持續盈利,最大盈利為目的。一句話,數據平台就是將企業的數據轉化為盈利。數據就是金錢,已經越來越成為各個行業各企業的共識。
在信息時代,其實也有一些數據平台的影子,並且一直持續到現在,例如報表;BI;數據倉庫;ETL等這些技術很多企業或多或少的都接觸過一些,現在一些比較流行的詞匯如數據挖掘,Hadoop,Spark,大數據等,也都是圍繞數據相關的。所有這些技術有效組合,共同為數據平台建設提供技術支持。
如何建立數據平台
首先這裏要與大家分享的是中小企業的數據平台搭建之路,定位於中小企業,數據遠達不到海量,甚至企業都還未有曆史數據的積澱。在互聯網企業可能更多描述的大數據平台,數據挖掘等;而在銀行,電信等大型傳統企業更多的是數據倉庫,BI等,這些都是與中小企業有區別的。大數據、數據挖掘等對於技術人員的技術要求比較高,大型數據倉庫,專業BI軟件等往往需要大量的IT資金投入。
而中小型企業的IT技術人員和IT投入都是短板,加之數據量本身不大,故如何搭建針對中小企業的數據平台,還需平衡好企業自身技術實力,企業數據量,企業IT投入三個主要方麵。平衡好三者的關係是搭建起適合自身的數據平台的關鍵之一。
1 定義數據源
個人認為數據平台搭建的一個前提是要有原始數據的積累。正所謂巧婦難為無米炊,沒有數據,數據平台何來?所以企業一定要重視數據,並積累數據。數據的來源可能是已有企業的IT係統數據庫中數據,例如ERP係統中的數據、通過各種渠道收集的競爭對手數據、手動錄入的數據等等,這些作為數據源,需要做到統一的整理存放。
2 定義數據分析主題
數據源有了,做飯的米有了,接下來我們要明確自己是要燒米飯還是米湯了。即我們要定義自己的分析主題,中小企業按照內部部門劃分分析主題就好,一般為人力主題,財務主題,銷售或市場主題,客戶主題等,另外需要規劃一個特別的主題,即企業駕駛艙,作為各個主題的入口,企業駕駛艙負責展示各個主題中總括的數據以及各個主題中最核心,企業領導最關心的數據等。
3 數據處理
有了數據源,有了數據主題,接下來就是要將數據源中的數據,在數據主題中進行有效的處理,這包括:抽取->轉換清洗->裝載(ETL的過程)。通過ETL工具抽取源數據,清洗掉無效數據,轉化數據主題需要的數據,然後在裝載到數據主題中,這樣就可以實現有效數據從數據源到數據主題的轉變。
4 數據展示
經過上述三步的處理後,數據已經存儲在數據主題中,接下來就需要通過report報表工具,將主題中的數據進行展示。當然有一些報表是直接查詢數據源中的數據(需求方迫切需要的),而未經過數據集市,這也是允許的,尤其是平台建設前期。
經過以上四步,可以基本搭建起數據平台的雛形,此時的數據平台更多的隻是報表平台,未包含數據預測,數據監控預警,數據挖掘等深層次功能。其實在作者看來,數據平台的第一步一定是報表平台,匯總公司已有或是各部門需求的報表,進行統一整理,分類展示,然後在此基礎上進行一些深層次分析的數據挖掘、預測分析等。
當然,上述四步並不是串行進行的,可以在定義數據源的時候一並確定好數據分析主題,在理解抽取數邏輯的時候,並行進行ETL的開發工作等。搭建數據平台,尤其是在數據平台初期,一定要有一個原則,即:快速迭代。
接下來我要說的數據平台搭建方法論相關,主要三點:
-
快速迭代
-
自下而上與自上而下結合
-
技術儲備與業務規劃要前瞻
首先快速迭代。數據平台搭建初期需要快速迭代,不斷實現各個業務部門的報表需求,分析需求,通過IT技術解放各個業務部門手動出報表的重複作業,將各個業務部門吸引到數據平台上來。
這個階段甚至可以犧牲報表的性能,數據的規劃等(極端情況)。隻有各個業務部門參與進來才能共同推動數據平台搭建,要采用自下而上與自上而下相結合的方法:“下”指數據平台建設人員,各個部門的業務同事等。“上”指IT領導,各個部門的總監領導,公司的中高層領導等。
數據平台的搭建一定是公司全體人員共同努力的成果,隻有上下一心,共同參與,才能搭建起最符合企業自身業務實際、最有效、準確的數據平台。總的來說,數據平台的搭建需要遵循一個前提:曆史數據積累;一個原則:快速迭代;貫徹一個方法:自下而上與自上而下相結合,全員參與。
數據平台的技術架構
接下來要介紹的是根據中小企業的特點,平衡了技術、投入、數據量三要素後總結出來的搭建數據平台的IT技術架構。
縱觀該技術架構,可以看出以下特點:
層次性:從數據源到最後的展示分了多層,數據經過了多次轉化,看似複雜,其實是將數據進行了“瘦身”,最終展示的數據可能隻有幾條,幾十條,而這幾條數據來源於多數據源,可以有效地提高最終的展示效率,全量DB的引入匯集了公司不同的數據源中數據,也統一了數據源類型;數據倉庫的建立是一個循序漸進的過程,建立數據平台不能沒有數據倉庫,但在數據平台初期不能太過關注,否則會違反快速迭代的原則。
開源:數據庫采用MySQL數據庫,etl采用kettle,都是開源免費而且有廣大用戶群的技術,方便快速入手,且無經濟負擔。
時效:數據展示平台中的報表大多是非實時的展示,即從數據集市而來的,也有一部分需要實時展示的報表,這個時候采用的是直接查詢數據源的方法,即圖中白虛線。但當數據量增多的情況,直接查詢比較緩慢,或是跨多數據源比較複雜的情況下,可以考慮一些新的實時計算的技術,例如Spark等,這在數據平台搭建的前期一般不會出現。
數據平台的搭建不能一蹴而就,不能作為一個短期項目,而應該作為一個長遠規劃、戰略規劃,不斷迭代,不斷優化等。同時也要注意時間的控製和裏程碑的建立,不能三年下來還是沒有數據倉庫的雛形,還是沒有完善的數據分析主題等。
隨著時間的推移和數據的積累,會逐漸考慮大數據Hadoop,Spark實時計算的技術,這需要在數據平台建立的過程中循序漸進,並做好技術儲備。
數據平台團隊組建
明白了數據平台,懂得數據平台的建立方法,又清楚數據平台的技術架構,那麼最後的執行者即數據團隊如何組建呢?
首先數據團隊的組建方式兩種:一種是真實團隊式,即為數據平台項目而組建的團隊,從各個IT,業務部門抽取,專人專職,這種成本比較高;另一種是虛擬團隊,即各個業務部門加IT團隊出人,時間自由支配,給定工作量與時間節點。
虛擬團隊成本比較低,不影響各自的正常工作,但是對員工的積極性要求比較高,所以前麵講過數據平台要全員參與,上下一心,上麵跟進督促,下麵環環相扣,充分把握時間與進度,完成數據平台的初期建設。數據平台經過了初期建設後,一定要有專門的團隊的專業維護,這樣便於以後數據分析,挖據,預測等的工作開展,也利於快速支持業務部門的需求。數據團隊的演變大致如下:
剛開始的時候,隻有開發跟業務人員采用,開發幫助業務人員出報表,解放業務人員的手動出報表,隨著發展,後續會逐漸進入ETL工程師,數據分析師,架構師,產品經理等角色,而是數據平台的功能也由一開始的出報表逐漸轉換為指導業務人員管理規劃業務,慢慢成為公司或是行業的專業數據產品,進而包裝成商業產品為公司實通過數據產品盈利。這是一個循序漸進的過程,不能一下子就企圖招全各方麵人才,否則會造成極大的人力浪費,大幅增加數據平台的成本。
平台搭建誤區
數據平台的搭建其實是有一些誤區的,作者結合自身經曆真是企業案例,分享一下數據平台搭建的一些誤區,希望能夠起到警示提醒作用。
1 挖個大數據牛人
很多企業跟風搭建數據平台往往會選擇從BAT等一線互聯網公司高薪聘請技術人員來幫助建立數據平台,而高薪請來的人員有可能會根據以往大數據平台的經驗和技術架構,建立起不符合企業現狀的技術架構。
2 直接交給專業公司
直接交給專業公司,或是將整個外包出去,這也是一個常見的誤區,外包公司等往往都是分期收費,按需收費,前期規劃不明確,變動頻繁,成本也會直線上升,更重要的是外包團隊不了解企業自身的實際情況,往往做出來的數據平台不符合企業自身特點。不過專業公司,外包團隊的行業經驗,建設經驗是很值得學習采取的。
3 A公司做的很好,直接COPY
合作單位或是其他公司做的很好,往往采用直接COPY的做法,這也是不可取的。
4 購買專業數據產品
購買專業的數據產品會提高工作效率,但是絕不會買到適合自己的數據平台,直接使用就可以。
綜上4個誤區,全是為說明一點,數據平台的搭建一定要切合企業自身的實際情況,量體裁衣,牛人的技術,專業公司的行業經驗,合作單位的建設經驗等都是可取,但是不能完全複製,要考量自身特點,有取有舍,循序漸進,條件允許的話利用專業的報表軟件、數據產品等提高工作效率,實現數據平台的快速搭建。
總結
中小企業數據平台搭建之路漫漫,但易起步開始,初期搭建(報表平台)一般3月足夠,在此基礎上不斷完善,將企業的數據提煉成金,為公司帶來持久的最大化盈利,希望本篇文章能夠為正在數據平台搭建之路上的同仁們提供幫助。
原文發布時間為:2017-01-09
本文來自雲棲社區合作夥伴DBAplus
最後更新:2017-05-13 08:43:56