阅读310 返回首页    go 阿里云 go 技术社区[云栖]


论文摘抄 - Infobright

背景

论文 Brighthouse: AnAnalytic Data Warehouse for Ad-hoc Queries,VLDB 2008

 

brighthouse是一个面向列的数据仓库,在列存储和压缩数据方面,数据压缩比达到10:1。其核心Knowledge Grid(知识网格)层,即一个能自动调节、所存出具特别小的元数据层,替代了索引的功能,提供了数据过滤、统计信息表达、实际数据位置信息等内容,让brighthouse可以作为一个分析型的数据仓库,,达到ad-hoc查询的速度。Knowledge Grid层介入的是query优化和执行阶段,减少数据读入量和解压缩开销。

 

这篇论文中的brighthouse就是商业数据仓库infobright。


介绍

面向列的架构比较适合分析型数据仓库,面向行的架构比较适合OLTP系统。brighthouse是面向列的。

 

Knowledge Gird是一个data about data的思路,提供一些类似数据的统计信息,来帮助query优化和执行阶段取得想要的数据,这是brighthouse设计最核心的部分。从层次上说,介于query优化、执行层和数据(压缩)存储层之间。而且Knowledge Grid存储的元数据非常小,完全可以存在内存里。

 

Knowledge Grid由Knowledge Nodes组成,每个Node上记录了压缩数据的元数据信息,这些实际数据存储在Data Packs里,数据量比较庞大,是按列存的,不做分区(这部分信息由Knowledge Node维护),且压缩过。所以Data Packs相当于代表了brighthouse的数据存储模型,而Knowledge Grid类似元数据层。


架构和模块

架构图:

最后更新:2017-04-03 05:39:54

  上一篇:go 使用HashMap对象传递url参数实用工具类
  下一篇:go OpenCV_基于HOG特征的行人检测