问下 Flink中hudi 写入s3的时候设置压缩了,生成parquet.marker.APPEND log也有 没有生成单独的.parquet文件呢?
问下 Flink中hudi 写入s3的时候设置压缩了,生成parquet.marker.APPEN?[阿里云实时计算 Flink版]
「点点赞赏,手留余香」
还没有人赞赏,快来当第一个赞赏的人吧!
问下 Flink中hudi 写入s3的时候设置压缩了,生成parquet.marker.APPEND log也有 没有生成单独的.parquet文件呢?
Hudi 是一种用于处理大规模数据更新的开源数据湖解决方案,可以将数据写入到 S3 等分布式存储系统中。根据您的问题,如果在 Flink 中使用 Hudi 将数据写入 S3 并设置了压缩,生成的文件可能是带有
.parquet.marker.APPEND后缀的文件。.parquet.marker.APPEND文件是 Hudi 内部使用的标志文件,它记录了追加操作的元数据。当 Hudi 进行追加操作时,会先生成这样的标志文件,并在之后的批量操作中将数据追加到相应的 Parquet 文件中。通常情况下,针对每个逻辑表,Hudi 会创建一个或多个 Parquet 文件,这些文件保存了实际的数据内容。这些 Parquet 文件没有
.parquet.marker.APPEND的后缀,而是以.parquet结尾。因此,如果您在 S3 上看到了
.parquet.marker.APPEND文件,那么这只是 Hudi 内部用于管理数据更新的标志文件,并不是最终的 Parquet 数据文件。实际的数据文件应该是以.parquet结尾的文件。需要注意的是,为了能够正确读取和使用 Hudi 写入的数据,您需要使用 Hudi 提供的 API 或工具来读取和处理数据,而不仅仅是直接读取 Parquet 文件。这样可以保证正确地处理数据的增量更新和时间旅行等功能。