The Linux Foundation Projects
Delta Lake

安全数据共享的开放标准

Delta Sharing 是业界首个用于安全数据共享的开放协议,无论组织使用何种计算平台,都能轻松共享数据。

观看 2021 年 Data+AI Summit 共享公告

Watch the video

Apache Spark™ 和 MLFLow 的原创者 Matei Zaharia 的开放数据共享主题演讲。

主要特性

直接共享实时数据

轻松共享 Delta Lake 中的实时数据,而无需将其复制到其他系统。

支持多种客户端

数据接收方可以直接从 Pandas、Apache Spark™、Rust 和其他系统连接到 Delta Shares,而无需首先部署特定的计算模式。减少将数据提供给用户的摩擦。

安全与治理

Delta Sharing 允许您轻松管理、跟踪和审计对共享数据集的访问。

可伸缩性

通过利用 S3、ADLS 和 GCS 等云存储系统,可靠高效地共享 TB 级数据集。

连接到 Delta Sharing

Pandas

将表加载为 Pandas DataFrame

delta_sharing.load_as_pandas(…)

Apache Spark

将表加载为 Spark DataFrame

delta_sharing.load_as_spark(…)

Power BI

直接加载到 Power BI

Delta Sharing 生态系统

ecosystem

加入 Delta Lake 社区

Delta Lake 获得来自 70 多个组织、190 多名开发人员在多个代码库中的支持。
与 Delta Lake 用户和贡献者交流,提问并分享技巧。

The Linux Foundation
项目治理

Delta Lake 是一个独立的开源项目,不受任何单一公司的控制。为了强调这一点,我们于 2019 年加入了 Delta Lake 项目,它是 Linux 基金会项目的一个子项目。在该项目中,我们根据这些规则做出决策。