使用 Delta Lake 构建湖仓一体(Lakehouse)架构
Delta Lake 是一个开源存储框架,它支持构建与格式无关的湖仓一体架构,可与 Spark、PrestoDB、Flink、Trino、Hive、Snowflake、Google BigQuery、Athena、Redshift、Databricks、Azure Fabric 等计算引擎以及 Scala、Java、Rust 和 Python 的 API 协同工作。借助 Delta 通用格式(即 UniForm),您现在可以使用 Iceberg 和 Hudi 客户端读取 Delta 表。
开放
社区驱动,快速扩展的集成生态系统
简单
一种格式统一您湖仓一体中的 ETL、数据仓库和机器学习
UniForm
一种用于湖仓一体互操作性的通用格式
生产就绪
经过 10,000 多个生产环境的实战检验
平台无关
可在任何云端、本地或本地与任何查询引擎一起使用
最新消息

主要特性

ACID 事务
使用可串行化(最高级别的隔离)保护您的数据

可扩展元数据
轻松处理具有数十亿分区和文件的拍字节级表

时间旅行
访问/恢复早期版本的数据,用于审计、回滚或复现

开源
社区驱动、开放标准、开放协议、开放讨论

统一批处理/流处理
从精确一次语义摄取到回填再到交互式查询

模式演进/强制执行
防止不良数据导致数据损坏

审计历史
Delta Lake 记录所有更改细节,提供完整的审计跟踪

DML 操作
用于合并、更新和删除数据集的 SQL、Scala/Java 和 Python API

阅读湖仓一体存储系统白皮书
这些白皮书深入探讨了湖仓一体存储系统的特性,并比较了 Delta Lake、Apache Hudi 和 Apache Iceberg。它们还解释了湖仓一体存储系统的优势,并展示了关键性能基准。
阅读白皮书加入 Delta Lake 社区
Delta Lake 获得来自 70 多个组织、190 多名开发人员在多个代码库中的支持。
与 Delta Lake 用户和贡献者交流,提问并分享技巧。

项目治理
Delta Lake 是一个独立的开源项目,不受任何单一公司的控制。为了强调这一点,我们于 2019 年加入了 Delta Lake 项目,该项目是 Linux 基金会项目的一个子项目。在该项目中,我们根据这些规则做出决策。