配置
行组大小
较大的行组允许较大的列块,从而可以进行较大的顺序 IO。较大的组在写入路径中也需要更多的缓冲(或两次写入)。我们建议使用大行组(512MB - 1GB)。由于可能需要读取整个行组,我们希望它完全适合一个 HDFS 块。因此,HDFS 块大小也应该设置得更大。优化的读取设置是:1GB 行组,1GB HDFS 块大小,每个 HDFS 文件 1 个 HDFS 块。
数据页大小
数据页应被视为不可分割的,因此较小的数据页允许更细粒度的读取(例如单行查找)。较大的页大小会产生较少的空间开销(较少的页头)和潜在的较少解析开销(处理页头)。注意:对于顺序扫描,预期不会一次读取一页;这不是 IO 块。我们建议页大小为 8KB。