Amazon EMR 大数据处理 - Spark 与 Hive 的执行环境

在 EMR 集群上执行 Spark 作业和 Hive 查询，介绍与 EMR Serverless 的选择以及托管扩缩的成本优化。

約 1 分で読めます最終更新: 2025-11-25

EMR 集群配置

EMR 集群最多由数百个节点组成，包括主节点（集群管理和 YARN 资源管理器）、核心节点（HDFS 数据保存和计算处理）和任务节点（仅计算处理）。核心节点保存 HDFS 数据，缩减时有数据丢失风险，而任务节点不持有数据可自由扩缩。使用 S3 作为主存储时，核心节点的 HDFS 可最小化，降低 Spot 中断风险。

Spark 与 Hive 执行

Spark on EMR 通过 spark-submit 命令或 EMR Steps API 提交作业。EMRFS 是优化 S3 读写的文件系统，提供绕过 S3 最终一致性的一致性视图。启用 Spark 动态资源分配（Dynamic Resource Allocation）后，执行器数量根据作业负载自动调整。Hive on EMR 使用 Glue Data Catalog 作为元数据存储，与 Athena 和 Redshift Spectrum 共享表定义。

EMR on EKS 与托管扩缩

EMR on EKS 在现有 EKS 集群上执行 Spark 作业，利用 Kubernetes 的资源管理和调度。创建虚拟集群映射到 EKS 命名空间，通过 StartJobRun API 提交作业。EMR on EC2 的托管扩缩根据作业负载自动添加/删除核心节点和任务节点。扩缩策略可设置最小/最大节点数和扩缩触发条件。

EMR 成本优化

EMR 成本由实例费用和 EMR 费用（约 EC2 费用的 25%）构成。推荐任务节点使用 Spot 实例，核心节点使用按需实例确保 HDFS 数据安全。使用 S3 作为主存储的 EMRFS 架构可最小化核心节点 HDFS，降低 Spot 中断风险。临时集群仅在作业执行时启动，完成后自动终止，避免空闲成本。

总结

EMR 提供 Spark 和 Hive 等大数据框架的托管执行环境。通过以 S3 为主存储的 EMRFS 架构降低 Spot 实例中断风险，托管扩缩实现根据作业负载自动调整节点数。EMR on EKS 还可与现有 Kubernetes 环境集成。

Amazon Quick 实践应用 - 部门级用例与工作流自动化设计模式具体介绍销售、IT、财务等各部门的应用场景，以及通过 Quick Flows 实现通知、审批、多阶段工作流的设计模式。BI 仪表板可视化 - 使用 Amazon QuickSight 构建数据驱动的决策基础介绍使用 Amazon QuickSight 构建交互式 BI 仪表板，以及与 Athena 联动的无服务器数据分析基础。包括 SPICE 引擎的高速可视化和向全组织共享洞察的实践方法。构建区块链网络 - 使用 Amazon Managed Blockchain 与 QLDB 的分布式账本应用介绍使用 Amazon Managed Blockchain 构建区块链网络，以及使用 Amazon QLDB 实现可验证账本数据库的方法。包括供应链管理和金融交易透明性保障等实际使用场景。使用 AWS Clean Rooms 实现隐私保护型数据协作无需共享或复制数据即可在多企业间执行联合分析。介绍通过聚合规则防止个人识别以及通过 Cryptographic Computing 实现加密分析。客户 ID 统合 - 使用 AWS Entity Resolution 对分散的客户数据进行名称匹配详解使用 AWS Entity Resolution 进行客户数据的名称匹配（实体解析）。介绍基于机器学习的匹配、基于规则的匹配、隐私保护以及与 Clean Rooms 的集成。使用 AWS Data Exchange 活用第三方数据 - 数据采购与订阅管理通过 Marketplace 采购第三方数据产品，构建自动配送到 S3 的管道。介绍自有数据的产品化和变现方法。使用 Amazon S3 和 Lake Formation 构建数据湖 - 设计模式与治理介绍以 S3 为存储基础、通过 Lake Formation 实现细粒度访问控制的数据湖设计模式。同时解说 ETL 管道与成本优化方案。数据湖治理 - 通过 AWS Lake Formation 实现集中式访问控制解说使用 AWS Lake Formation 构建数据湖、实现访问控制与治理的方法。介绍针对基于 S3 的数据湖的列级与行级细粒度权限管理，以及与 Glue、Athena 的集成。

EMR 集群配置

Spark 与 Hive 执行

EMR on EKS 与托管扩缩

EMR 成本优化

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务