概念

相关术语表。
  • 块(HDFS 块):这指的是 HDFS 中的块,在描述此文件格式时含义不变。该文件格式设计为能够在 HDFS 之上良好运行。

  • 文件:一个必须包含文件元数据的 HDFS 文件。它不需要实际包含数据。

  • 行组(Row group):数据的逻辑水平分区。行组没有保证的物理结构。一个行组由数据集中每一列的一个列块组成。

  • 列块(Column chunk):特定列的数据块。它们存在于特定的行组中,并保证在文件中是连续的。

  • 页(Page):列块被划分为页。页在概念上是一个不可分割的单位(就压缩和编码而言)。一个列块中可以有多种页类型交错存在。

从层次结构来看,一个文件由一个或多个行组组成。一个行组包含每列恰好一个列块。列块包含一个或多个页。

并行化单元

  • MapReduce - 文件/行组
  • IO - 列块
  • 编码/压缩 - 页