Amazon EMR Serverless のアイコン

Amazon EMR Serverless 专业2022年〜

无需集群管理即可以无服务器方式运行 Spark 和 Hive 作业的服务

它能做什么

Amazon EMR Serverless 是无需管理集群即可运行 Apache Spark 和 Hive 作业的无服务器服务。只需提交作业,资源即自动预置,仅按执行时间和资源使用量计费。无需集群大小和扩缩容配置。

使用场景

适用于定期 ETL 批处理、S3 数据湖上的即席查询、作为数据管道一部分的 Spark 作业执行等希望省去集群管理工作的大数据处理场景。

日常类比

可以将其比作出租车。EMR (集群版) 相当于购买和维护自有车辆,而 EMR Serverless 只需叫一辆出租车就能到达目的地。无需管理车辆,只需支付乘车费用。

什么是 EMR Serverless

Amazon EMR Serverless 是以无服务器方式执行大数据处理的服务。EMR on EC2 需要决定集群的实例类型和节点数量,而 EMR Serverless 只需提交作业即可自动分配资源。作业完成后资源释放,不产生空闲成本。

应用程序与作业运行

EMR Serverless 中首先创建应用程序,选择 Spark 或 Hive 运行时。向应用程序提交作业运行后,所需的 vCPU 和内存会自动预置。设置预初始化工作器可预先池化工作器,将作业启动时间缩短到数秒。 有关应用程序和作业运行的详细解说,也可参阅 相关书籍 (Amazon)

入门指南

EMR 控制台选择「创建无服务器应用程序」,指定运行时 (Spark/Hive)。应用程序创建后,指定 S3 上的脚本和数据提交作业运行。与 Glue Data Catalog 集成后可共享表元数据执行查询。

注意事项

  • Pay-per-use pricing based on execution time and resource usage makes it cost-effective for short batch jobs
  • For long-running interactive workloads, EMR on EC2 may be more cost-effective
共有するXB!