加入 Delta Lake 社区
Delta Lake 获得来自 70 多个组织、190 多名开发人员在多个代码库中的支持。
与 Delta Lake 用户和贡献者交流,提问并分享技巧。
已排期和最新视频
由于我们卓越社区的贡献,Delta Lake 的月下载量现已达到 2000 万!我们为该项目所取得的进展感到自豪,并邀请您参与进来。立即开始。

贡献
帮助我们构建有史以来最简单、最完整、经过实战检验的开源存储框架!
以下是一些开始贡献的好方法。
Delta
192 位贡献者 | 43 个组织
适用于 Apache Spark™ 的 Delta Lake 连接器,提供 Scala/Java 和 Python API,以及适用于 Hive、Flink、PrestoDB 等基于 Java 的引擎。
请参阅 Delta Lake 贡献指南,了解最新的沟通方式、编码风格以及如何签署您的作品。
请参阅 Delta Lake 协议,了解 Delta 事务协议的规范,该协议为存储在分布式文件系统或对象存储中的文件形式的大量数据带来了 ACID 特性。
想帮忙或寻求帮助吗?
寻找帮助或寻求帮助的方法?请参阅 获取帮助指南。
治理
Delta Lake 是一个独立的开源项目,不受任何单一公司控制。为了强调这一点,我们于 2019 年加入了 Delta Lake 项目,该项目是 Linux 基金会项目的子项目。在该项目中,我们根据 这些规则 做出决策。
Delta Lake 得到来自 70 多个组织、190 多名开发人员在多个代码库中的支持。自 2019 年以来,超过 190 名开发人员为 Delta Lake 做出了贡献!Delta Lake 社区正在飞速发展,Delta 用户 Slack 中有超过 6200 名成员。
有关更多信息,请参阅创始技术章程。
整合数据仓库和数据湖
FLORIAN VALEYE
BACK MARKET 资深数据工程师
这次在西班牙开源峰会上的对话为 Delta Lake 的重要性、Rust 在数据工程中的作用以及开源社区的协作性质提供了宝贵的见解。
Delta Lake 开源项目整合了数据湖和数据仓库,这是在这个需要可靠性和控制的规模化数据新时代中必不可少的组合。
Back Market 的数据工程师 Florian Valeye 在今年秋天早些时候在西班牙毕尔巴鄂举行的开源峰会上录制的《新堆栈制造者》这一集中表示,数据湖屋将数据湖的先进数据分析和低成本存储与数据仓库的性能和可靠性整合在一起。
数据仓库是过去二十年出现的一种方法。它由结构化数据模型组成,可以提供更好的性能。Valeye 说,数据集很小且受到限制。相比之下,数据湖由来自多个来源的非结构化数据组成。数据湖的数据量达到 PB 甚至 EB 级别。
Valeye 表示,由 Databricks 创建的 Delta Lake 通过在数据湖中提供更多性能和功能,打破了数据仓库和数据湖之间的障碍。
Valeye 说,ACID 事务是数据仓库的必备要素。在考虑关系型数据库或数据仓库时,重点放在模型表示和数据结构上。数据湖是一种开放的方式来推送数据并添加模式。数据湖放大了数据。通过“打破壁垒”,湖屋提供了 ACID 事务、读、处理、解释 (RPI) 摄取和元数据可扩展性。其强大之处在于能够为任何用途获取知识,而数据分析师团队与数据工程和数据科学家团队之间没有障碍。
Databricks 现在正在努力为任何人提供通过 Delta Lake 贡献其连接器的方法,从而允许与例如不同的数据库一起使用的网关。
“这就是为什么当您在特定的云提供商上工作时,不希望被捆绑、锁定在其中,这非常好,”Valerie 说。“所以这就是为什么拥有这种标准格式,您可以从一个切换到另一个,并且不会觉得被一个提供商和一种格式所困。”
Valeye 说 Back Market 销售翻新设备。为了确定设备质量,该公司开发了一种算法来确定设备是否适合销售。Back Market 使用 Delta Lake 从 API 和其他数据源摄取数据。
Valeye 曾担任数据工程师,他说 Delta Lake 是连接数据科学家和数据工程师的平台。在使用 Delta Lake 之前,由于不同工具和编程语言的复杂性,部署模型可能会很复杂。Delta Lake 基础设施弥合了这些差距。它允许每个人在相同的基础设施上工作。

项目维护者
想要深入了解 Delta Lake,请与我们的任何维护者聊天!
有关如何贡献的更多信息,请参阅 Delta Lake 贡献指南。
姓名 | 组织 | 关注领域 |
---|---|---|
Michael Armbrust | Databricks | delta, 连接器, delta-sharing |
R. Tyler Croy | Scribd | delta, delta-rs, kafka-delta-ingest |
Tathagata Das | Databricks | delta, 连接器 |
QP Hou | Neuralink | delta, delta-rs |
Will Jones | Voltron Data | delta, delta-rs |
Venki Korukanti | Databricks | delta, 连接器 |
Denny Lee | Databricks | delta, 连接器, delta-sharing, delta-rs, 网站 |
Mykhailo Osypov | Scribd | delta-rs, kafka-delta-ingest |
Robert Pack | BASF | delta, delta-rs |
Allison Portis | Databricks | delta, 连接器 |
Scott Sandre | Databricks | delta, 连接器 |
Florian Valeye | Backmarket | delta, delta-rs |
Thomas Vollmer | 微软 | delta-rs |
Christian Williams | Scribd | delta, delta-rs, kafka-delta-ingest |
Ryan Zhu | Databricks | delta, 连接器, delta-sharing |
Gerhard Brueckl | Paiqo GmbH | delta, 连接器, delta-sharing |
Ion Koutsouris | ASML | delta, delta-rs |

项目治理
Delta Lake 是一个独立的开源项目,不受任何单一公司控制。为了强调这一点,我们于 2019 年加入了 Delta Lake 项目,该项目是 Linux 基金会项目的子项目。在该项目中,我们根据 这些规则 做出决策。