億級用戶平台的大數據實踐
輕鬆籌於2014年9月成立,2015年9月注冊用戶達到100萬,2016年9月注冊用戶突破1億,並入選民政部網絡募捐平台。到今天,輕鬆籌的手機號注冊用戶已經超過1.6億,意味著每7個上網用戶裏就有1個人使用過輕鬆籌。
輕鬆籌每天有300GB的結構化數據產生,數據量以後還會越來越大,要應對的並發量也會越來越多。所以,一個支持PB級以上的數據庫來存儲這些海量數據並且能夠支持及時查詢,成了必需。
我們希望籌款能幫助每一位病人重獲健康,同時我們也希望解決更多老百姓的社會保障問題,2016年4月18日我們首創了大病互助產品,每人隻需3元錢就可以加入互助計劃,目前我們已有735萬會員加入。(大病互助產品解釋:如果其中一人檢查出30種大病中的一種,就可以獲得30萬的救助保障金,目前每人隻需均攤5分錢。)
初步估算,1個月以後,輕鬆籌的互助行動將會有10000000會員,假設每天有20個人需要救助,那麼我們每天要生成2億行交易數據;麵對如此龐大的數據存儲和查詢,我們需要建立一個穩定、安全,有保障的大數據中心。
-
信任透明
如何讓項目(每一次救助我們結構化存儲為項目)更加公開透明?我們作為平台方需要搭建好發起人和支持者良好的溝通渠道,當支持者對項目產生質疑時,我們通過項目發起人的進展、資金公示,舉報數據來源,通過大數據手段實時抓取微博、微信公眾號、媒體等數據源,建立公眾趨勢分析功能,快速獲知整個項目情況,為後續追蹤提供可靠的數據支撐!
-
風險監控
如何保證每一個項目的真實可信,每一次籌款金額是否合理?我們建立了完整的病理庫,一種大病某個分類在某個地區某個醫院的醫療費用範圍,其中還考慮各種其他因素,比如病人是否持續繳納社保、病人家庭的固定資產情況。通過大數據、人工智能算法等技術計算出風險指數,給予發起人和支持者一個合理籌款的範圍。
-
定向幫助
如果讓項目獲得更多的支持金額?經典的6度人脈理論告訴我們可以通過6個人的關係聯絡到世界上任何一個人,經過我們的大數據分析,我們如果精準推薦給病人的三度人脈幫助其傳播,能增加大概30%的籌款金額;
-
愛心指數
如何滿足愛心人士的存在感和榮譽感?我們創新了愛心值這個概念,通過多維度給每位支持者計算出愛心值,他們身上會被貼上“全省好人代表”或者是“聯合國愛心大使”的標簽,最終我們希望愛心值能類似於支付寶芝麻信用分那樣實現征信的作用,可以授信借貸、租車(比如支付寶花唄借貸、共享單車租車,愛心值越高,可以借貸越高或者免費騎車)等提供給第三方使用;
在我看來,將數據應用到產品和業務上,給用戶帶來價值,給公司帶來增長,才是我們做大數據的真正目的。
要做大數據,但是怎麼做?輕鬆籌麵臨以下幾個問題:
- 缺乏大數據經驗,挖坑、填坑是一個非常痛苦的事情。業務在前麵一直衝,我經曆過1星期不睡覺一直擦屁股的事情。如果大家玩王者榮耀都知道每個星期的戰報裏那個神坑隊友。然而有了經驗後則不同,它將具備先發優勢,站在巨人的肩膀上,至少離成功更進一步。所以,我們需要擁有豐富的大數據項目經驗的靠譜團隊給我們支持。
-
用戶行為埋點數據不全麵。雖然市麵上有百度統計、友盟、talkingdata等產品,但通過這些產品,我們隻能看到局部報表數據,沒法做到精準查詢,而且明細數據也托管在別人手裏,相當於我們的數據資產命脈在別人手裏,這個是我們的痛點。
-
業務數據查詢慢,傳統結構數據分散有MySQL,MongoDB,日誌文件等多種形式,有的業務查詢需要避開業務高峰期甚至SQL查詢時間要耗上1個晚上,這對於我們產品和業務的發展是非常不利的。我們需要在不影響業務正常發展的前提下,來做大數據的開發和應用。
具體該如何做?我們構想了2個計劃,一是自建大數據係統;二是在成熟的產品基礎上進行開發和應用;
即自己用開源的Hadoop等搭建一套大數據平台。首先需要招聘能做這件事的人才,初步估算需要2個月時間,實際上我們花了好幾個月也沒有找到負責人。去矽穀見了一圈比如Uber、LinkedIn大數據團隊、國內也找了BAT做大數據的人,但是很難找到真正適合創業階段的人。
團隊建設也是非常難,如果沒有核心的大數據負責人,很多技術人員來了找不到認同感,人員流動性非常大,最後會變成即使想做但還是做不了。穩定下來至少半年時間過去了。
大數據方案具體實現時間保守估計需要5個月甚至更長,因為沒有底層基礎,所以在這個過程中,踩坑在所難免。1年時間下來,保守估計最終可能隻完成工程以及小部分實驗性產品。
但是大數據講的不是概念,而是要用起來,還要用活;所以這個方案實際看起來更像一個理想化的工程方案,而且耗時長,對於創業公司來說,時間就是金錢,我們等不起。
平台選擇依托阿裏雲數加平台:數加是阿裏多年實踐經驗沉澱的產品,成熟、穩定、開箱即用,像輕鬆籌這樣的創業型公司,選擇數加,是一個節省時間、金錢成本的明智選擇。
服務商,我們選擇的是袋鼠雲:之所以選擇袋鼠雲,是因為在大數據項目之前,我們這邊已經和袋鼠雲有了相關合作,主要做數據庫分布式架構設計,分庫分表設計,袋鼠雲有良好的服務態度和技術實力,對此,我們非常信任。同時袋鼠雲的CTO江楓就是原來數加團隊技術負責人之一,袋鼠雲是數加首個金牌合作夥伴,他們有成熟的大數據解決方案,對數加平台以及數據開發和應用理解深刻。
這樣一來,我們便可以快速形成成熟的大數據體係,並且能在實戰中建立自己的大數據團隊,互聯網公司都是輕資產,輕裝上陣,才能跑得更快。
我們最終采用了袋鼠雲提供的大數據架構,如下圖,這是一個通用的大數據架構:
- 業務數據通過數據同步同步到MaxCompute中。訂單類數據,每10分鍾同步一次,其它的數據,每天同步一次。
- 行為數據,就是用戶的點擊、購買等行為日誌數據,通過袋鼠雲的雲日誌產品采集同步到MaxCompute中。數據的延遲在一分鍾以內。
- 在MaxCompute中,將業務數據和行為數據打通。在此基礎上,進行關係鏈分析、畫像分析、統計分析等應用。關係鏈分析:是想知道,籌款的傳播情況。畫像分析:是想了解,愛心人士的捐款偏好。統計分析:是生產成規報表,提出基礎數據支持
最後,再將數據通過可視化大屏進行實時展現,並在QuickBI上生成BI報表。我們期望方案能夠實現數據的存、通、用,最終實現籌款者和愛心人士的更好連接。
實時數據可視化,實現數據化運營

可以實時呈現業務信息,起到實時監控,支撐更快速、更敏捷的數據決策的作用。
通過將業務數據和行為數據結合在一起,為籌款項目的精細化運營提供數據支持。比如,可以了解某一個項目的當前的籌款狀態,籌款金額趨勢,籌款人數的趨勢,渠道的轉換率。
通過這些信息,我們了解到,這個項目是否需要推送到首頁、工作號等渠道,讓更多的人知道這個項目。同時,我們統計各個渠道的捐款轉化率,捐款占比。通過對這些分析,提出一些對產品的改善建議。

通過BI報表,讓更多人使用數據,養成了對數據的使用習慣;同時,也提出了更多的報表需求;我們做決策不再是拍腦袋式的,而是根據真實數據的分析結果做更科學的決策。
這樣,我們最終一步步走向數據化運營。
我們現有1.6 億用戶,每周在大數據平台生成2T的數據量。基於阿裏雲平台,依靠我們的服務商袋鼠雲,我們隻需2個月便建成了自己的大數據中心,每月的資源花費<1萬元。通過這一係列的數據,我們認為,我們當初的選擇是正確的。
袋鼠雲日誌: 基於Elasticsearch比ELK更好用的日誌分析監控工具
EasyDB: 一站式數據庫管理平台,Oracle/MySQL DBA運維神器
更多專業實踐,點擊進入雲市場頭條:https://yq.aliyun.com/marketplace
最後更新:2017-06-15 15:02:15
上一篇:
一個讓Google、Facebook、Amazon都羨慕的平台,為什麼說阿裏媽媽是數字營銷的未來
下一篇:
JQuery驗證插件validation的使用
如何在 CentOS 中安裝 XWiki
《Servlet、JSP和Spring MVC初學指南》——1.11 使用部署描述符
[Cocos2d-x v3.x]序列幀動畫
專訪阿裏雲資深專家易立,Docker技術將改變現代軟件供應鏈
Tomcat-connector的微調(3): processorCache與socket.processorCache
app軟件開發功能流程
DevOps是容器的主要應用場景嗎?睿雲智合(Wise2C)主推WiseBuild
交換機和路由器有什麼區別
Java中CallableStatement調用Oracle存儲過程總結
並發數據結構-1.1 並發的數據結構的設計