Apache Parquet 是一种开源的列式数据文件格式,专为高效的数据存储和检索而设计。 它提供高性能的压缩和编码方案来批量处理复杂数据,并被众多编程语言和分析工具所支持。
parquet-format(规范)
parquet-format 仓库托管了 Parquet 文件格式的官方规范,定义了数据的结构和存储方式。该规范以及 parquet.thrift Thrift 元数据定义,是开发能够有效读写 Parquet 文件的软件所必需的。
请注意,parquet-format 仓库不包含读写 Parquet 文件的库源代码,而是文件格式本身的正式定义和文档。
parquet-java
parquet-java(原名 parquet-mr)仓库是 Apache Parquet 项目的一部分,包含:
- 用于在 Java 应用程序中读写 Parquet 文件的 Java 库。
- 用于处理 Parquet 文件的实用程序和 API,包括数据导入/导出、模式管理和数据转换工具。
请注意,Parquet 格式还有许多其他实现,下面列出了其中一些。
其他客户端 / 库 / 工具
Parquet 生态系统丰富多样,包含各种工具、库和客户端,每个都提供不同级别的功能支持。需要注意的是,并非所有实现都支持 Parquet 格式的相同功能。在工作流中集成多个 Parquet 实现时,务必进行全面测试,以确保不同平台和工具之间的兼容性和性能。
您可以在实现状态页面找到有关各种 Parquet 实现功能支持的更多信息。
以下是一个非详尽的开源 Parquet 实现列表: