概念
相关术语表。
-
块(HDFS 块):这指的是 HDFS 中的块,在描述此文件格式时含义不变。该文件格式设计为能够在 HDFS 之上良好运行。
-
文件:一个必须包含文件元数据的 HDFS 文件。它不需要实际包含数据。
-
行组(Row group):数据的逻辑水平分区。行组没有保证的物理结构。一个行组由数据集中每一列的一个列块组成。
-
列块(Column chunk):特定列的数据块。它们存在于特定的行组中,并保证在文件中是连续的。
-
页(Page):列块被划分为页。页在概念上是一个不可分割的单位(就压缩和编码而言)。一个列块中可以有多种页类型交错存在。
从层次结构来看,一个文件由一个或多个行组组成。一个行组包含每列恰好一个列块。列块包含一个或多个页。
并行化单元
- MapReduce - 文件/行组
- IO - 列块
- 编码/压缩 - 页