麵向萬物互聯的時序數據庫HiTSDB
當前物聯網的浪潮席卷全球,甚至於人們還沒有真正意識到物聯網的存在,但它已經無處不在 。個人智能手環,家庭裏使用的智能空調,空氣淨化器,電飯煲,到社會化共享經濟的共享單車,共享汽車,再到汽車製造車間生產線,IT機房的網絡設備和服務器,交通監控和信號設備,甚至於全球氣候的監測設備等等,這一切都通過物聯網進行連接,設備和設備之間,人和設備之間萬物互聯。
透過現象看本質,物聯網的本質是數據的采集和價值利用,而物聯網領域最廣泛和典型的數據類型就是時間序列數據。時間序列數據是同一統一指標按時間順序記錄的數據列。在同一數據列中的各個數據必須是同口徑的,要求具有可比性。時序數據可以是時期數,也可以時點數。如:股票的交易點數,隨著時間的推進,產生一係列的數據點。
據Gatener 2017年的報告數據顯示,到2020年將有200億的物聯網設備被使用,市場規模達到2萬億美金,麵對大規模的時序數據場景,對數據庫產品的技術服務能力提出了更大的挑戰 ,HiTSDB在這個背景下應運而生。
HiTSDB (High-performance Time Series Database) 是阿裏巴巴自主研發的麵向物聯網及相關領域的高性能時間序列數據庫產品 。在物聯網及相關領域HiTSDB主要解決以下問題。
1. 大規模的物聯網設備的時序數據高並發寫入:
物聯網場景一個特點是設備規模巨大,設備上的數據采集點更是達到百萬以上的級別,數據采集就更加龐大。比如我們說氣溫的波動,每秒測量一次,一天是86400秒,如果是我們做係統監控,或者像氣溫這樣的科學儀器持續的調數據的話,24小時都要用,平均每一個儀器儀表在一個時間點上產生一個數據點,一個儀表就產生86400個數據,如果把全國各個縣都布一個采樣點,那一天數據就上億了,實際上對氣象采樣來說每一個縣對應一個溫度傳感器顯然有點不夠的,可能是每一個街道甚至每個小區都有這樣的傳感器,那麼這個數據加起來實際上是一個非常驚人的數字。
這種場景下,平均每秒需要寫入幾十萬甚至上百萬的數據點到數據庫,傳統數據庫由於自己數據架構的限製,完全不能夠支持這麼大規模的並發寫入。 HiTSDB 時序數據庫則可以輕鬆應對。阿裏內部雙十一可以支持到每秒 10,000,000 時序數據點寫入。
2. 低成本的存儲
物聯網時序數據的另外一個特點是數據持續寫入,在高並發寫入的情況下持續寫入,那麼就會產生海量的數據。比如工業領域某客戶每個廠區具有 20000 個監測點,500 毫秒一個采集周期,一共 20 個廠區。一年將產生的 26 萬億個數據點,假設每個點 50Byte,數據總量將達 1P,如果每台服務器 10T 的硬盤,那麼總共需要 100 多台服務器。這個存儲成本對企業來說是非常巨大的。
HiTSDB采用獨有的算法可以對原始數據進行有效壓縮,實際平均壓縮比例可以10:1,存儲機器成本從100台減少到10台。
3. 靈活高效的數據分析能力
數據分析是物聯網應用的重要環節。設備上采集到的數據需要進行統計和分析和展現才可以讓數據的價值得到直觀體現。比如我們需要把一年的溫度數據按照天的緯度的提取展出來,單日的溫度數據按照當天采樣數據的平均值計算,那麼就需要數據庫能夠提供高效的基於時間緯度的數據讀取分析能力。
HiTSDB 提供時序數據聚合分析能力,百萬數據點讀取分析響應時間小於5秒 。同時可以將用戶的查詢結果通過圖標直觀的呈現給客戶。能夠解決用戶高效的數據分析的需求。
最後更新:2017-06-07 11:32:27