在 claimsforce 与 Robert Kossendey 一起统一数据湖和数据仓库
2023 年 2 月,Denny Lee 与 claimsforce 的 Robert Kossendey 进行了交谈,谈论了该公司最近使用 Delta Lake 从数据仓库向数据湖的过渡。Robert 是 claimsforce 数据团队的技术负责人,负责他们的数据架构。在过去的五年中,claimsforce 尝试了各种数据架构,但最终选择了 Delta Lake 作为他们的开源存储框架。Robert 解释说,有了 Delta Lake,claimsforce 拥有降低成本、维护数据正确性并让客户满意所需的一切——而且这一转变极大地简化了数据团队的工作。
claimsforce 是什么?
claimsforce 是一家位于德国汉堡的小型科技初创公司,为保险市场参与者提供软件。举例来说,假设你家中发生漏水并造成损害,你需要提出保险索赔。如果损失足够大,理赔员将不得不前来评估索赔。claimsforce 为这些理赔员以及管理这些索赔的文员和后台员工提供软件。该初创公司从各方收集大量与这些索赔相关的数据,需要弄清楚如何高效地处理这些数据并符合当地法规。在德国,纸质文档在保险行业仍然普遍存在,这使得跟踪和存储所有相关信息变得更加困难。
从数据仓库开始
claimsforce 处理大数据的最初方法是双层架构,包括 Amazon S3 中的数据湖阶段和 Amazon Redshift 中的数据仓库阶段。随着时间的推移,他们意识到拥有两个阶段会带来工程和维护工作量增加、基础设施成本以及数据陈旧等缺点。claimsforce 使用 DynamoDB 作为他们的生产数据库,为了获得分析洞察,他们与 AWS 解决方案架构师合作,开发了一个解决方案,该方案包括捕获数据变化并通过 AWS Kinesis Data Firehose 将其写入 S3 中的原始着陆区。他们使用 glue crawler 来推断模式,使数据可通过 AWS Athena 进行查询,然后将数据加载到 Redshift 中进行进一步处理。查询在 Redshift 中执行,结果被反馈到他们的 QuickSight 仪表板中。
初始设置的问题
claimsforce 的双阶段方法既有优点也有缺点。S3 存储便宜,Athena 使用即读模式模型,数据湖支持他们所有的数据格式,因此所有照片、视频和其他文档都可以倾倒在那里。然而,使用 Athena 对原始数据、CSV、JSON 甚至 Parquet 文件运行查询需要很长时间,而且它们不支持数据湖上的 ACID 事务。此外,无法执行 SQL MERGE 类型的操作。最初的用户没有能力将所有在 Redshift 上执行的工作负载移动到数据湖。
发现湖仓一体架构
除了所有这些问题之外,新的客户需求也浮出水面,例如实时数据和机器学习服务。claimsforce 认识到他们当前的架构不能很好地适应他们的需求,于是开始寻找新的架构解决方案。数据正确性对他们的客户来说非常重要,因此他们知道对 ACID 事务的支持是必备功能。此外,合规性是保险行业的一个主要关注点,因此事务日志和根据请求删除用户数据(GDPR 授予的权利之一)的能力是关键要求。传统的裸数据湖不支持 ACID 事务,因此 claimsforce 无法接受;他们需要建立安全机制,以防止他们在一次事务中多次写入相同的数据。他们的研究使他们找到了 Delta Lake,它提供了他们正在寻找的所有功能。
使用 Delta Lake 的好处
除了满足所有技术需求外,对于 claimsforce 来说,Delta Lake 最大的优势之一是降低成本。Athena 的使用成本增加了,但这被从 Redshift 迁移节省的费用所完全抵消。使用 Delta Lake 也意味着他们不必将数据从 S3 移动到另一个存储系统;所有数据都可以保留在 S3 中。这缩短了他们的 ETL 时间,因为将数据加载到 Redshift 一直是他们管道中最慢的部分。自动读取数据和聚合表的加载时间大大缩短,特别是对于机器学习目的。他们发现使用 Athena 和 Delta Lake 非常容易设置且速度非常快。凭借当前的设置,claimsforce 相信他们将能够扩展以满足任何未来的业务需求。
“我们没有财富 500 强公司那样的大数据量,但至少目前看来,我们当前的设置可以无限扩展。我们现在完全可以应对未来。这太棒了。”
claimsforce 需要一个可靠的开源存储框架,使其能够构建湖仓一体架构,以降低成本、节省时间并简化其工作流程。使用 Delta Lake 从数据仓库过渡到湖仓一体架构为他们提供了他们正在寻找的解决方案,他们发现 Spark 集成是一流的,快速增长的开源社区是一个巨大的优势。
查看 Robert 关于 Delta Lake 的最新博客文章