使用 Amazon S3 和 Lake Formation 构建数据湖 - 设计模式与治理

介绍以 S3 为存储基础、通过 Lake Formation 实现细粒度访问控制的数据湖设计模式。同时解说 ETL 管道与成本优化方案。

約 1 分で読めます最終更新: 2025-11-14

数据湖的设计模式

数据湖以具有 99.999999999%（11 个 9）持久性的 S3 为存储基础，从原始数据的摄取到转换为可分析状态进行分阶段管理。着陆区（Raw）原样保存摄取的原始数据，暂存区（Processed）通过 Glue 作业执行类型转换和数据清洗。策展区（Curated）以 Parquet 格式存放应用了业务逻辑的分析用数据。S3 前缀设计采用 year/month/day 的分区结构，通过 Athena 查询的分区裁剪实现扫描量削减。

Lake Formation 实现的治理

Lake Formation 是集中管理数据湖访问控制的服务。以往需要分别设置 S3 存储桶策略、IAM 策略和 Glue Catalog 策略，而 Lake Formation 可在数据库、表、列、行各级别进行基于 GRANT/REVOKE 的权限管理。使用基于标签的访问控制（LF-TBAC），可以为数据附加分类标签，并根据标签自动应用访问权限。跨账户共享可向 Organizations 内的其他账户授予表级别的访问权限，实现数据网格架构。

ETL 管道的设计

数据湖的 ETL 管道通过 Glue 作业构建。使用 Glue Crawler 扫描着陆区的原始数据进行 Schema 检测，并注册到数据目录中。Glue 作业执行类型转换、缺失值处理和去重，以 Parquet 格式输出到策展区。设置分区键（日期、区域）以优化 Athena 的查询性能。通过 Glue Workflow 定义多个作业的依赖关系，控制 Crawler → ETL 作业 → 数据质量检查的执行顺序。使用 EventBridge 以数据到达 S3 为触发器自动启动 ETL 管道，实现近实时的数据更新。从基础到应用全面学习 Lake Formation，可参考相关书籍（Amazon）。

数据湖的成本优化

利用 S3 的存储类别优化数据湖成本。着陆区的原始数据存储在 S3 Standard 中，设置生命周期规则在 30 天后迁移到 S3 Intelligent-Tiering。策展后的数据因频繁查询而保持在 Standard，归档区的数据迁移到 Glacier Instant Retrieval。通过 Parquet 格式和适当的分区设计可大幅降低 Athena 的查询成本，与 CSV 相比扫描量可减少 90% 以上。适当设置 Glue 作业的 DPU 数量，避免过度的资源分配。通过 S3 Storage Lens 可视化各存储桶的成本明细，定期执行不必要数据的删除和存储类别的审查。

总结

结合 S3 和 Lake Formation 的数据湖，通过三层区域设计逐步提升数据质量，并通过 Lake Formation 的细粒度访问控制确保治理。利用 Glue Crawler 的 Schema 自动检测和列式格式的采用，可同时实现运维效率和查询性能。

Amazon Quick 实践应用 - 部门级用例与工作流自动化设计模式具体介绍销售、IT、财务等各部门的应用场景，以及通过 Quick Flows 实现通知、审批、多阶段工作流的设计模式。BI 仪表板可视化 - 使用 Amazon QuickSight 构建数据驱动的决策基础介绍使用 Amazon QuickSight 构建交互式 BI 仪表板，以及与 Athena 联动的无服务器数据分析基础。包括 SPICE 引擎的高速可视化和向全组织共享洞察的实践方法。构建区块链网络 - 使用 Amazon Managed Blockchain 与 QLDB 的分布式账本应用介绍使用 Amazon Managed Blockchain 构建区块链网络，以及使用 Amazon QLDB 实现可验证账本数据库的方法。包括供应链管理和金融交易透明性保障等实际使用场景。使用 AWS Clean Rooms 实现隐私保护型数据协作无需共享或复制数据即可在多企业间执行联合分析。介绍通过聚合规则防止个人识别以及通过 Cryptographic Computing 实现加密分析。客户 ID 统合 - 使用 AWS Entity Resolution 对分散的客户数据进行名称匹配详解使用 AWS Entity Resolution 进行客户数据的名称匹配（实体解析）。介绍基于机器学习的匹配、基于规则的匹配、隐私保护以及与 Clean Rooms 的集成。使用 AWS Data Exchange 活用第三方数据 - 数据采购与订阅管理通过 Marketplace 采购第三方数据产品，构建自动配送到 S3 的管道。介绍自有数据的产品化和变现方法。数据湖治理 - 通过 AWS Lake Formation 实现集中式访问控制解说使用 AWS Lake Formation 构建数据湖、实现访问控制与治理的方法。介绍针对基于 S3 的数据湖的列级与行级细粒度权限管理，以及与 Glue、Athena 的集成。数据市场活用 - 通过 AWS Data Exchange 实现第三方数据的高效获取与利用解说利用 AWS Data Exchange 获取和活用第三方数据的方法。介绍通过与 S3 集成构建数据管道，以及作为数据提供商发布数据的方法。

数据湖的设计模式

Lake Formation 实现的治理

ETL 管道的设计

数据湖的成本优化

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务