為什麼MaxCompute采用列式存儲？列式存儲和行式存儲的主要區別在哪

1 為什麼要按列存儲

列式存儲(Columnar or column-based)是相對於傳統關係型數據庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好，直接抄原文了)：

Ø Row-based storage stores atable in a sequence of rows.

Ø Column-based storage storesa table in a sequence of columns.

下麵來看一個例子：

從上圖可以很清楚地看到，行式存儲下一張表的數據都是放在一起的，但列式存儲下都被分開保存了。所以它們就有了如下這些優缺點：

行式存儲

列式存儲

優點

Ø 數據被保存在一起

Ø INSERT/UPDATE容易

Ø 查詢時隻有涉及到的列會被讀取

Ø 投影(projection)很高效

Ø 任何列都能作為索引

缺點

Ø 選擇(Selection)時即使隻涉及某幾列，所有數據也都會被讀取

Ø 選擇完成時，被選擇的列要重新組裝

Ø INSERT/UPDATE比較麻煩

注：關係型數據庫理論回顧 - 選擇(Selection)和投影(Projection)

2數據壓縮

剛才其實跳過了資料裏提到的另一種技術：通過字典表壓縮數據。為了方麵後麵的講解，這部分也順帶提一下了。

下麵中才是那張表本來的樣子。經過字典表進行數據壓縮後，表中的字符串才都變成數字了。正因為每個字符串在字典表裏隻出現一次了，所以達到了壓縮的目的(有點像規範化和非規範化Normalize和Denomalize)

3查詢執行性能

下麵就是最牛的圖了，通過一條查詢的執行過程說明列式存儲(以及數據壓縮)的優點：

關鍵步驟如下：

1. 去字典表裏找到字符串對應數字(隻進行一次字符串比較)。

2. 用數字去列表裏匹配，匹配上的位置設為1。

3. 把不同列的匹配結果進行位運算得到符合所有條件的記錄下標。

4. 使用這個下標組裝出最終的結果集。

阿裏巴巴大數據-玩家社區 https://yq.aliyun.com/teams/6/

---阿裏大數據博文，問答，社群，實踐，有朋自遠方來，不亦說乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

最後更新：2017-07-21 01:32:39

為什麼MaxCompute采用列式存儲？列式存儲和行式存儲的主要區別在哪

1 為什麼要按列存儲

2數據壓縮

3查詢執行性能

上一篇：俄羅斯最大搜索引擎Yandex開源了一款梯度提升機器學習庫CatBoost

下一篇：從MapReduce的執行來看如何優化MaxCompute（原ODPS） SQL

相關內容

熱門內容

最新內容

為什麼MaxCompute采用列式存儲？列式存儲和行式存儲的主要區別在哪

1 為什麼要按列存儲

2數據壓縮

3查詢執行性能

上一篇： 俄羅斯最大搜索引擎Yandex開源了一款梯度提升機器學習庫CatBoost

下一篇： 從MapReduce的執行來看如何優化MaxCompute（原ODPS） SQL

相關內容

熱門內容

最新內容

上一篇：俄羅斯最大搜索引擎Yandex開源了一款梯度提升機器學習庫CatBoost

下一篇：從MapReduce的執行來看如何優化MaxCompute（原ODPS） SQL