The Linux Foundation Projects
Delta Lake

Delta Lake 博客

Thumbnail for Delta Lake Small File Compaction with OPTIMIZE

使用 OPTIMIZE 压缩 Delta Lake 小文件

作者:Matthew Powers

本文演示如何使用 OPTIMIZE 压缩 Delta 表中的小文件。

Thumbnail for Adding and Deleting Partitions in Delta Lake tables

在 Delta Lake 表中添加和删除分区

作者:Matthew PowersRyan Zhu

本文演示如何从 Delta Lake 表中添加和删除分区。

Thumbnail for Remove old files with the Delta Lake Vacuum Command

使用 Delta Lake Vacuum 命令删除旧文件

作者:Matthew PowersNick Karpov

这篇博文解释了如何使用 Delta Lake Vacuum 命令从存储中删除标记为删除的文件。

Thumbnail for Reading Delta Lake Tables into Polars DataFrames

将 Delta Lake 表读入 Polars DataFrames

作者:Matthew PowersChitral Verma

本文演示如何将 Delta Lake 表读入 Polars DataFrames。

Thumbnail for Building a more efficient data infrastructure for machine learning with Open Source using Delta Lake, Amazon SageMaker, and EMR

使用 Delta Lake、Amazon SageMaker 和 EMR 通过开源为机器学习构建更高效的数据基础设施

作者:Vedant JainDenny Lee

在这篇博客中,我们将探讨 Delta Lake、Amazon SageMaker Studio 和 Amazon EMR 如何协同工作,从而简化支持数据工程和数据科学项目所需的端到端工作流程。

Thumbnail for Data Sharing across Government Agencies using Delta Sharing

使用 Delta Sharing 在政府机构之间共享数据

作者:Li YuMubashir KaziaJon D. CeanfaglionePrabha RajendranPurushotam ShresthaShawn A. Benjamin

本文演示了政府机构如何使用 Delta Sharing 共享数据。

Thumbnail for How to Delete Rows from a Delta Lake Table

如何从 Delta Lake 表中删除行

作者:Matthew Powers

本文教您如何从 Delta Lake 表中删除行以及该操作在底层是如何实现的。

Thumbnail for Delta Lake Constraints and Checks

Delta Lake 约束和检查

作者:Matthew Powers

本文演示如何向 Delta 表添加约束,以避免某些类型的值被追加。

Thumbnail for Delta Lake Schema Enforcement

Delta Lake 模式强制执行

作者:Matthew Powers

本文教您 Delta Lake 中的模式强制执行以及它为何优于数据湖提供的功能。

Thumbnail for Why PySpark append and overwrite write operations are safer in Delta Lake than Parquet tables

为什么 PySpark 在 Delta Lake 中的 append 和 overwrite 写入操作比 Parquet 表更安全

作者:Matthew Powers

本文向您展示了为什么 PySpark 的 overwrite 操作在 Delta Lake 中更安全,以及不同的保存模式操作在底层是如何实现的。

Thumbnail for How to Create Delta Lake Tables

如何创建 Delta Lake 表

作者:Matthew Powers

本文向您展示如何使用 Python、SQL 和 PySpark 创建 Delta Lake 表。

Thumbnail for How to Version Your Data with pandas and Delta Lake

如何使用 pandas 和 Delta Lake 对数据进行版本控制

作者:Matthew Powers

本文向您展示如何对 pandas 数据集进行版本控制,以及版本化数据将为您带来的好处。