468
技術社區[雲棲]
基於TableStore的數據采集分析係統介紹
摘要
在互聯網高度發達的今天,ipad、手機等智能終端設備隨處可見,運行在其中的APP、網站也非常多,如何采集終端數據進行分析,提升軟件的品質非常重要,例如PV/UV統計、用戶行為數據統計與分析等。雖然場景簡單,但是數據量大,對係統的吞吐量、實時性、分析能力、查詢能力都有較高的要求,搭建起來並不容易。今天我們來介紹一下基於阿裏雲表格存儲,以及相關的大數據產品來采集與分析數據的方案。
TableStore
TableStore(表格存儲)是阿裏雲自主研發的專業級分布式NoSQL數據庫,是基於共享存儲的高性能、低成本、易擴展、全托管的半結構化數據存儲平台,支撐互聯網和物聯網數據的高效計算與分析。
目前不管是阿裏巴巴集團內部,還是外部公有雲用戶,都有成千上萬的係統在使用。覆蓋了重吞吐的離線應用,以及重穩定性,性能敏感的在線應用。表格存儲的具體的特性可以看下麵這張圖片。
基於TableStore的數據采集分析係統
一個典型的數據采集分析統計平台,對數據的處理,主要由如下五個步驟組成:
對於上圖流程的具體實現,網上有許多可以參考的案例,數據在客戶端采集完以後,如果量比較小,我們可能直接在後端的API上做一次透傳,然後持久化到RDBMS類型的數據庫中就好了,通過Sql可以進行數據分析。如果數據量很大,就需要一些中間件來輔助收集和上傳,然後分別將數據寫入到在線和離線的係統中,比如先上傳到Flume,Flume可以做數據的采集與聚合,再將Flume作為消息的生產者,將生產的消息數據通過Kafka Sink發布到Kafka中,Kafka作為消息隊列的角色,可以對接後端的在線和離線計算平台。如下圖所示:
引入Flume和Kafka的原因有很多,比如他們可以處理大流量的數據、做數據聚合、保證數據不丟失等,但最關鍵的原因是他們擁有高吞吐的能力。引入的組件多,係統的複雜性和成本也會相應的增加,上圖中,Spark Streaming/Storm分析完成以後,結果數據還需要引入另外的存儲組件進行存儲,比如HBase/MySQL,如果引入MySQL可能還需要再引入Redis做熱點數據緩存,這樣一來就更加複雜了。
我們嚐試一種基於TableStore和阿裏雲其他大數據產品的新方案,我們先看架構圖:
圖中關鍵路徑分析:
1、Web頁、APP等客戶端先通過埋點係統收集數據,然後通過表格存儲的SDK將數據寫入TableStore的原始數據表。
2、MaxCompute直讀TableStore原始數據表的數據進行分析,然後QuickBI讀取MaxCompute的數據進行展示,具體操作可參考:MaxCompute直讀直寫表格存儲、QuickBI新建雲數據源。
3、TableStore原始數據表中的數據可增量同步到ElasticSearch或者openSearch中,同步方法參考:TableStore數據同步到ElasticSearch,TableStore數據同步到OpenSearch。
4、TableStore中的數據可增量同步到Blink/Flink進行分析,分析完以後的數據再寫回TableStore的結果數據表中,DavaV讀取結果數據表的數據進行展示。
新架構優勢分析:
1、客戶端數據直讀直寫TableStore,不需要再引入API層進行數據透傳,降低了複雜度,對於大型應用來說也減少了不少的服務器成本。
2、TableStore已經對接了豐富了大數據組件,包括阿裏雲的大數據產品和開源大數據產品,數據的同步與讀寫非常容易。
3、實時分析與離線分析後的結果數據再寫回TableStore,DataV直接讀取結果數據進行展示,因為TableStore具備高性能與高吞吐特點,不需要再引入Redis等緩存組件,可以簡化整個係統。
直讀直寫安全問題:
關於數據直讀直寫TableStore,大家可能都會想到一個安全的問題,客戶端直連TableStore不是要把AccessKey和AccessId暴露在客戶端嗎?答案是不用,我們使用STSToken授權訪問TableStore,過程如下圖所示:
TableStore提供的SDK都支持使用STS授權的方式進行訪問,示例可參考TableStore NodeJs SDK使用STSToken,使用STS方式訪問TableStore需要控製好授權策略,客戶端不需要的接口請不要授權。
瀏覽器跨域訪問TableStore:
如果在瀏覽器端直接訪問TableStore,由於瀏覽器有同源策略的限製,會產生跨域問題。因為TableStore的EndPoint域名與用戶Web站點的域名不同。解決這個問題的思路有兩個:一是Web端不直接訪問TableStore,改為先請求自己的Web Server端,Web Server端再使用TableStore SDK來發起請求,這樣其實就是後端訪問了,問題解決了但也沒了我們直讀直寫的優勢;二是TableStore服務端通過某種方式直接支持js跨域請求,這條路我們正在支持當中,當前處於開發階段,支持的方式是cors協議支持跨域。但目前也有快捷的支持方式,如果您有瀏覽器直接訪問TableStore的需求,可以直接聯係我們,支持起來也很快。
總結
表格存儲因其高性能、高吞吐、高可靠的特性,使得它在數據采集這種對後端吞吐要求很高的場景下非常適用,客戶端數據直讀直寫表格存儲,也為後端節省了中間層數據流轉這一層服務,減少了複雜性也節省了成本。另外,表格存儲對接了豐富的計算、分析、展示工具可以覆蓋數據采集與分析的幾乎所有場景,本文所介紹的周邊組件也隻涵蓋了一部分,更多的示例與說明請參考表格存儲用戶指南,也歡迎加入表格存儲公開交流群,釘釘群號:11789671,與我們交流。
最後更新:2017-11-17 12:34:14