Amazon EMR Serverless 专业2022年〜
无需集群管理即可以无服务器方式运行 Spark 和 Hive 作业的服务
它能做什么
Amazon EMR Serverless 是无需管理集群即可运行 Apache Spark 和 Hive 作业的无服务器服务。只需提交作业,资源即自动预置,仅按执行时间和资源使用量计费。无需集群大小和扩缩容配置。
使用场景
适用于定期 ETL 批处理、S3 数据湖上的即席查询、作为数据管道一部分的 Spark 作业执行等希望省去集群管理工作的大数据处理场景。
日常类比
可以将其比作出租车。EMR (集群版) 相当于购买和维护自有车辆,而 EMR Serverless 只需叫一辆出租车就能到达目的地。无需管理车辆,只需支付乘车费用。
什么是 EMR Serverless
Amazon EMR Serverless 是以无服务器方式执行大数据处理的服务。EMR on EC2 需要决定集群的实例类型和节点数量,而 EMR Serverless 只需提交作业即可自动分配资源。作业完成后资源释放,不产生空闲成本。
应用程序与作业运行
在 EMR Serverless 中首先创建应用程序,选择 Spark 或 Hive 运行时。向应用程序提交作业运行后,所需的 vCPU 和内存会自动预置。设置预初始化工作器可预先池化工作器,将作业启动时间缩短到数秒。 有关应用程序和作业运行的详细解说,也可参阅 相关书籍 (Amazon)。
入门指南
在 EMR 控制台选择「创建无服务器应用程序」,指定运行时 (Spark/Hive)。应用程序创建后,指定 S3 上的脚本和数据提交作业运行。与 Glue Data Catalog 集成后可共享表元数据执行查询。
注意事项
- Pay-per-use pricing based on execution time and resource usage makes it cost-effective for short batch jobs
- For long-running interactive workloads, EMR on EC2 may be more cost-effective