通过 AWS Glue 构建 ETL 管道 - 爬虫程序与作业的设计

通过爬虫程序自动发现 Schema，通过 Glue 作业执行 ETL 处理。介绍 Data Catalog 的活用模式和通过 Glue Studio 进行可视化开发。

約 1 分で読めます最終更新: 2025-12-20

爬虫程序与 Data Catalog

Glue 爬虫程序自动扫描 S3、RDS、Redshift、DynamoDB 等 30 多种数据源，发现 Schema（表定义、列名、数据类型）并注册到 Data Catalog。指定 S3 路径后，自动判别文件格式（CSV、JSON、Parquet、ORC 等），并检测分区结构。通过定时执行爬虫程序，自动检测新分区和 Schema 变更并更新 Catalog。Data Catalog 是 Hive 兼容的元数据存储，可从 Athena、EMR、Redshift Spectrum 直接引用。

Glue 作业的设计

Glue 作业使用 Python（PySpark）或 Scala 编写 ETL 脚本，在无服务器 Spark 环境中执行。DynamicFrame 是 Glue 独有的数据结构，通过 ResolveChoice 灵活处理同一列中混合不同数据类型的 Schema 不一致问题。Glue Studio 的可视化编辑器可通过拖放操作连接源（S3、RDS、Kafka 等）、转换和目标来构建 ETL 管道。作业书签记录已处理数据的位置，实现仅处理新增数据的增量处理。

数据质量与 Glue Studio

Glue Data Quality 定义数据质量规则（DQDL），在 ETL 管道内自动执行数据验证。以声明方式编写完整性（NULL 值比例）、唯一性（重复检查）、参照完整性（外键存在确认）等规则，当质量分数低于阈值时停止作业或发出告警。Glue Studio 是可视化 ETL 编辑器，通过拖放操作连接源、转换和目标来构建管道，无需编码即可实现复杂的 ETL 逻辑。

Glue 的成本优化

Glue 作业按 DPU（Data Processing Unit）小时计费，1 DPU 相当于 4 vCPU 和 16 GB 内存。Glue 4.0 通过 Auto Scaling 根据作业负载自动调整 DPU 数，防止过度资源分配。Flex 执行类面向非紧急批处理作业，比标准执行便宜约 35%。降低爬虫程序的执行频率（从每小时改为每天）也可减少 DPU 消耗。作业书签实现增量处理，避免每次全量处理的浪费。

总结

Glue 统一提供爬虫程序的 Schema 自动发现、无服务器的基于 Spark 的 ETL 作业和 Hive 兼容的 Data Catalog。通过 Data Quality 自动验证数据质量规则，通过 Glue Studio 的可视化编辑器无需编码即可构建 ETL 作业。通过作业书签实现增量处理，通过 Flex 执行类将非紧急作业的成本降低约 35%。

Amazon Quick 实践应用 - 部门级用例与工作流自动化设计模式具体介绍销售、IT、财务等各部门的应用场景，以及通过 Quick Flows 实现通知、审批、多阶段工作流的设计模式。BI 仪表板可视化 - 使用 Amazon QuickSight 构建数据驱动的决策基础介绍使用 Amazon QuickSight 构建交互式 BI 仪表板，以及与 Athena 联动的无服务器数据分析基础。包括 SPICE 引擎的高速可视化和向全组织共享洞察的实践方法。构建区块链网络 - 使用 Amazon Managed Blockchain 与 QLDB 的分布式账本应用介绍使用 Amazon Managed Blockchain 构建区块链网络，以及使用 Amazon QLDB 实现可验证账本数据库的方法。包括供应链管理和金融交易透明性保障等实际使用场景。使用 AWS Clean Rooms 实现隐私保护型数据协作无需共享或复制数据即可在多企业间执行联合分析。介绍通过聚合规则防止个人识别以及通过 Cryptographic Computing 实现加密分析。客户 ID 统合 - 使用 AWS Entity Resolution 对分散的客户数据进行名称匹配详解使用 AWS Entity Resolution 进行客户数据的名称匹配（实体解析）。介绍基于机器学习的匹配、基于规则的匹配、隐私保护以及与 Clean Rooms 的集成。使用 AWS Data Exchange 活用第三方数据 - 数据采购与订阅管理通过 Marketplace 采购第三方数据产品，构建自动配送到 S3 的管道。介绍自有数据的产品化和变现方法。使用 Amazon S3 和 Lake Formation 构建数据湖 - 设计模式与治理介绍以 S3 为存储基础、通过 Lake Formation 实现细粒度访问控制的数据湖设计模式。同时解说 ETL 管道与成本优化方案。数据湖治理 - 通过 AWS Lake Formation 实现集中式访问控制解说使用 AWS Lake Formation 构建数据湖、实现访问控制与治理的方法。介绍针对基于 S3 的数据湖的列级与行级细粒度权限管理，以及与 Glue、Athena 的集成。

爬虫程序与 Data Catalog

Glue 作业的设计

数据质量与 Glue Studio

Glue 的成本优化

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务