310
技術社區[雲棲]
論文摘抄 - Infobright
背景
論文 Brighthouse: AnAnalytic Data Warehouse for Ad-hoc Queries,VLDB 2008
brighthouse是一個麵向列的數據倉庫,在列存儲和壓縮數據方麵,數據壓縮比達到10:1。其核心Knowledge Grid(知識網格)層,即一個能自動調節、所存出具特別小的元數據層,替代了索引的功能,提供了數據過濾、統計信息表達、實際數據位置信息等內容,讓brighthouse可以作為一個分析型的數據倉庫,,達到ad-hoc查詢的速度。Knowledge Grid層介入的是query優化和執行階段,減少數據讀入量和解壓縮開銷。
這篇論文中的brighthouse就是商業數據倉庫infobright。
介紹
麵向列的架構比較適合分析型數據倉庫,麵向行的架構比較適合OLTP係統。brighthouse是麵向列的。
Knowledge Gird是一個data about data的思路,提供一些類似數據的統計信息,來幫助query優化和執行階段取得想要的數據,這是brighthouse設計最核心的部分。從層次上說,介於query優化、執行層和數據(壓縮)存儲層之間。而且Knowledge Grid存儲的元數據非常小,完全可以存在內存裏。
Knowledge Grid由Knowledge Nodes組成,每個Node上記錄了壓縮數據的元數據信息,這些實際數據存儲在Data Packs裏,數據量比較龐大,是按列存的,不做分區(這部分信息由Knowledge Node維護),且壓縮過。所以Data Packs相當於代表了brighthouse的數據存儲模型,而Knowledge Grid類似元數據層。