元数据
有两种类型的元数据:文件元数据和页头元数据。
所有 thrift 结构都使用 TCompactProtocol 进行序列化。这些结构的完整定义在 Parquet 的 Thrift 定义中给出。
文件元数据
在下图中,文件元数据由 FileMetaData 结构描述。此文件元数据提供了在导航 Parquet 文件时有用的偏移量和大小信息。
页头
页头元数据(图中的 PageHeader 及其子结构)与页数据内联存储,用于数据的读取和解码。
有两种类型的元数据:文件元数据和页头元数据。
所有 thrift 结构都使用 TCompactProtocol 进行序列化。这些结构的完整定义在 Parquet 的 Thrift 定义中给出。
在下图中,文件元数据由 FileMetaData 结构描述。此文件元数据提供了在导航 Parquet 文件时有用的偏移量和大小信息。
页头元数据(图中的 PageHeader 及其子结构)与页数据内联存储,用于数据的读取和解码。