通过 AWS Deadline Cloud 构建托管渲染农场 - VFX 渲染的云迁移
解说通过 Deadline Cloud 构建渲染农场、作业调度和通过 Spot 实例实现成本优化。
Deadline Cloud 概述
Deadline Cloud 是在云端以托管方式提供 VFX 和动画渲染农场的服务,可扩展至数千节点。本地渲染农场存在初始投资大、峰值时容量不足和空闲时浪费的问题,而 Deadline Cloud 通过按作业量自动扩展和按量计费来解决这些问题。支持 Maya、Houdini、Blender、3ds Max、Nuke、Cinema 4D 等主流 DCC 工具,通过 OpenJD(Open Job Description)实现标准化作业定义,构建不依赖特定渲染器的工作流。
作业调度与成本优化
在农场中创建队列,并将队列与 Fleet(工作组)关联。Fleet 可混合使用按需实例和 Spot 实例,通过提高 Spot 比例来降低成本。可设置作业优先级,优先处理紧急渲染。通过 DCC 工具的提交器插件从艺术家的工作站直接提交作业,在仪表盘中查看进度。预算功能设置每个农场的月度上限,防止超支。预算消耗达到阈值时自动停止新作业调度,进行中的作业继续完成。
工作 Fleet 与存储设计
Deadline Cloud 的工作 Fleet 分为服务托管 Fleet 和客户托管 Fleet 两种。服务托管 Fleet 根据作业需求自动配置 EC2 实例,渲染完成后终止。GPU 实例(G5、G6)用于 GPU 渲染,CPU 实例(C6i、C7i)用于 CPU 渲染。客户托管 Fleet 可使用自定义 AMI 预装特定软件许可证和插件。渲染数据的存储使用 S3 作为作业附件存储,工作节点在作业开始时自动下载。挂载 FSx for Lustre 可实现多工作节点高吞吐量访问共享文件系统,高效引用帧间共享资源。 关于 Deadline Cloud 的详细介绍也可以在Amazon 的相关书籍中了解。
Deadline Cloud 的成本管理
Deadline Cloud 按渲染使用的计算资源按量计费。将 Spot 实例指定为工作 Fleet 可大幅降低渲染成本。渲染作业具有中断容忍性,因此 Spot 中断时从检查点恢复的设计很有效。预算功能可按农场设置月度上限,防止意外的成本超支。利用作业调度优先级,紧急镜头使用按需实例处理,预览渲染使用 Spot 执行,实现高成本效率运营。使用报告按项目追踪渲染成本,提高估算精度。
与本地渲染农场的比较
本地渲染农场需要服务器机架、冷却设备、电源设备、网络设备等初始投资,按峰值需求采购的硬件在非高峰期产生闲置浪费。Deadline Cloud 在无作业时计算资源费用为零,适合项目繁忙程度波动大的工作室。另一方面,全年保持高利用率(大约 70% 以上)的大型工作室需要在预留实例或 Savings Plans 的前提下进行成本比较。也可采用混合配置,基础渲染在本地处理,仅峰值突发部分卸载到 Deadline Cloud。使用 Deadline Cloud Monitor 代理可将本地工作节点加入 Deadline Cloud 队列,实现云端和本地的统一管理。
定价与配额注意事项
Deadline Cloud 的定价主要由工作节点运行时间(EC2 费用)和作业附件的 S3 传输量构成。服务托管 Fleet 按工作节点从启动到终止的时间计费,大量提交短时渲染作业时工作节点启动开销相对较大。此时设置 MinWorkerCount 保持最少数量的工作节点常驻可避免启动等待,但会产生空闲时间费用。作业附件的 S3 传输中,场景文件较大时数据传输成本不可忽视,使用 FSx for Lustre 缓存配置更为有效。每个 Fleet 的最大工作节点数和每个队列的并发作业数存在服务配额限制,大规模制作需提前提交配额提升请求。
总结
Deadline Cloud 是基于云的托管渲染农场,通过自动扩展处理 VFX 和动画的渲染作业。服务托管 Fleet 免除 EC2 管理,通过 Spot 实例和预算功能控制成本,同时实现大规模并行渲染。支持主流 DCC 工具,通过 OpenJD 标准化作业定义灵活构建渲染管线。