Delta Lake 0.4.0 发布
作者:Denny Lee
主要功能
我们很高兴地宣布 Delta Lake 0.4.0 的发布,它引入了用于操作和管理 Delta 表中数据的 Python API。此版本的主要功能包括:
- 用于 DML 和实用操作的 Python API (#89) - 您现在可以使用 Python API 更新/删除/合并 Delta Lake 表中的数据,并对其运行实用操作(即 vacuum、history)。这些功能非常适合用 Python 构建复杂的工作负载,例如缓慢变化维度 (SCD) 操作、合并用于复制的更改数据,以及来自流式查询的 upsert。有关更多详细信息,请参阅文档。
- 转换为 Delta (#78) - 您现在可以将 Parquet 表原地转换为 Delta Lake 表,而无需重写任何数据。这对于转换非常大的 Parquet 表非常有用,因为将它们重写为 Delta 表成本会很高。此外,此过程是可逆的——您可以将 Parquet 表转换为 Delta Lake 表,对其进行操作(例如,删除或合并),然后轻松地将其转换回 Parquet 表。有关更多详细信息,请参阅文档。
- 用于实用操作的 SQL - 您现在可以使用 SQL 运行实用操作 vacuum 和 history。有关如何配置 Spark 以执行这些 Delta 特定的 SQL 命令的更多详细信息,请参阅文档。
要试用 Delta Lake 0.4.0,请遵循入门指南。
访问发行说明以了解有关此版本的更多信息。