ORC和Parquet存儲的優(yōu)點有哪些？

更新時間:2021年05月27日17時33分來源: 瀏覽次數(shù):

ORC和Parquet都是高性能的存儲方式，這兩種存儲格式總會帶來存儲和性能上的提升。

1.Parquet

（1）Parquet支持嵌套的數(shù)據(jù)模型，類似于Protocol Buffers，每一個數(shù)據(jù)模型的schema包含多個字段，每一個字段有三個屬性：重復(fù)次數(shù)、數(shù)據(jù)類型和字段名，重復(fù)次數(shù)可以是以下三種：required(只出現(xiàn)1次)，repeated(出現(xiàn)0次或多次)，optional(出現(xiàn)0次或1次)。每一個字段的數(shù)據(jù)類型可以分成兩種： group(復(fù)雜類型)和primitive(基本類型)。

（2）Parquet中沒有Map、Array這樣的復(fù)雜數(shù)據(jù)結(jié)構(gòu)，但是可以通過repeated和group組合來實現(xiàn)的。

（3）由于Parquet支持的數(shù)據(jù)模型比較松散，可能一條記錄中存在比較深的嵌套關(guān)系，如果為每一條記錄都維護(hù)一個類似的樹狀結(jié)可能會占用較大的存儲空間，因此Dremel論文中提出了一種高效的對于嵌套數(shù)據(jù)格式的壓縮算法：Striping/Assembly算法。通過Striping/Assembly算法，parquet可以使用較少的存儲空間表示復(fù)雜的嵌套格式，并且通常Repetition level和Definition level都是較小的整數(shù)值，可以通過RLE算法對其進(jìn)行壓縮，進(jìn)一步降低存儲空間。

Parquet文件是以二進(jìn)制方式存儲的，是不可以直接讀取和修改的，Parquet文件是自解析的，文件中包括該文件的數(shù)據(jù)和元數(shù)據(jù)。

2.ORC

（1）ORC文件是自描述的，它的元數(shù)據(jù)使用Protocol Buffers序列化，并且文件中的數(shù)據(jù)盡可能的壓縮以降低存儲空間的消耗；

（2）和Parquet類似，ORC文件也是以二進(jìn)制方式存儲的，所以是不可以直接讀取，ORC文件也是自解析的，它包含許多的元數(shù)據(jù)，這些元數(shù)據(jù)都是同構(gòu)ProtoBuffer進(jìn)行序列化的；

1622107663499_ORC和Parquet1.jpg

（3）ORC會盡可能合并多個離散的區(qū)間盡可能的減少I/O次數(shù)；

（4）ORC中使用了更加精確的索引信息，使得在讀取數(shù)據(jù)時可以指定從任意一行開始讀取，更細(xì)粒度的統(tǒng)計信息使得讀取ORC文件跳過整個row group，ORC默認(rèn)會對任何一塊數(shù)據(jù)和索引信息使用ZLIB壓縮，因此ORC文件占用的存儲空間也更??；

（5）在新版本的ORC中也加入了對Bloom Filter的支持，它可以進(jìn)一步提升謂詞下推的效率，在Hive 1.2.0版本以后也加入了對此的支持。

怎樣安裝Hive？本地和遠(yuǎn)程操作安裝區(qū)別在哪里

Redis、傳統(tǒng)數(shù)據(jù)庫、HBase以及Hive的區(qū)別

Spark SQL如何實現(xiàn)Hive數(shù)據(jù)倉庫的操作？

傳智教育Python+大數(shù)據(jù)開發(fā)培訓(xùn)

上一篇：如何定義和調(diào)用Python中的函數(shù)？ 下一篇：Django如何給客戶端推送消息？App推送怎樣實現(xiàn)？