行存储和列存储
1 為什么要按列存儲
列式存儲(Columnar or column-based)是相對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區(qū)別就是如何組織表(翻譯不好,直接抄原文了):
?? Row-based storage stores atable in a sequence of rows.
?? Column-based storage storesa table in a sequence of columns.
?
下面來看一個例子:
?
從上圖可以很清楚地看到,行式存儲下一張表的數(shù)據(jù)都是放在一起的,但列式存儲下都被分開保存了。所以它們就有了如下這些優(yōu)缺點:
| ????????????????????????????? | 行式存儲 | 列式存儲 |
| 優(yōu)點 | ?? 數(shù)據(jù)被保存在一起 ?? INSERT/UPDATE容易 | ?? 查詢時只有涉及到的列會被讀取 ?? 投影(projection)很高效 ?? 任何列都能作為索引 |
| 缺點 | ?? 選擇(Selection)時即使只涉及某幾列,所有數(shù)據(jù)也都會被讀取 | ?? 選擇完成時,被選擇的列要重新組裝 ?? INSERT/UPDATE比較麻煩 |
注:關(guān)系型數(shù)據(jù)庫理論回顧 - 選擇(Selection)和投影(Projection)
2補充:數(shù)據(jù)壓縮
剛才其實跳過了資料里提到的另一種技術(shù):通過字典表壓縮數(shù)據(jù)。為了方面后面的講解,這部分也順帶提一下了。
下面中才是那張表本來的樣子。經(jīng)過字典表進行數(shù)據(jù)壓縮后,表中的字符串才都變成數(shù)字了。正因為每個字符串在字典表里只出現(xiàn)一次了,所以達到了壓縮的目的(有點像規(guī)范化和非規(guī)范化Normalize和Denomalize)
3查詢執(zhí)行性能
下面就是最牛的圖了,通過一條查詢的執(zhí)行過程說明列式存儲(以及數(shù)據(jù)壓縮)的優(yōu)點:
關(guān)鍵步驟如下:
1.?????去字典表里找到字符串對應數(shù)字(只進行一次字符串比較)。
2.?????用數(shù)字去列表里匹配,匹配上的位置設為1。
3.?????把不同列的匹配結(jié)果進行位運算得到符合所有條件的記錄下標。
4.?????使用這個下標組裝出最終的結(jié)果集。
總結(jié)
- 上一篇: 什么是OLAP和OLTP
- 下一篇: NLTK频率分类中定义的函数