用 Amazon SageMaker 构建 ML 平台 - 从模型构建到部署
介绍从 Studio 开发到托管 Spot 训练、Pipelines 实现 MLOps、Model Monitor 数据漂移检测,整合 ML 全生命周期的方法。
SageMaker 概述
SageMaker 是统一提供 ML 模型构建、训练和部署的服务,可使用 17 种以上内置算法和 150 种以上预训练模型。SageMaker Studio 是基于浏览器的 IDE,集成了 Jupyter Notebook、实验管理、模型注册表和流水线。覆盖数据科学家和 ML 工程师双方的工作流。
训练与部署
训练作业通过指定 S3 的训练数据和 ML 实例 (如 ml.p3.2xlarge 等 GPU 实例) 来执行。训练完成后,模型工件保存到 S3。实时推理端点在常驻实例上提供低延迟推理,无服务器推理是仅在请求时启动实例的高性价比选项。SageMaker Pipelines 将数据处理、训练、评估、条件分支、模型注册等步骤定义为 DAG,实现 ML 工作流自动化。
MLOps 与模型监控
SageMaker Pipelines 将 ML 工作流 (数据预处理 → 训练 → 评估 → 模型注册 → 部署) 定义为 CI/CD 流水线。Model Registry 管理模型的版本控制和审批工作流,在生产部署前设置质量关卡。Model Monitor 自动检测推理端点的数据漂移 (输入数据分布变化) 和模型质量 (精度下降),通过 CloudWatch 告警通知。SageMaker Clarify 提供模型偏差检测和可解释性,可视化特征重要性和单个预测的依据。Feature Store 集中管理团队共享的特征,确保训练和推理使用一致的特征。 要深入理解 SageMaker 的理论与实现,可参考相关专业书籍 (Amazon)。
SageMaker 的成本优化
SageMaker 的成本由训练实例、推理端点和 Notebook 实例构成。托管 Spot 训练可将训练成本削减最高 90%,通过检查点支持中断后恢复。推理端点可选择无服务器推理 (有冷启动) 和实时推理 (常驻),流量较少的模型适合无服务器。多模型端点将多个模型托管在一个端点上,共享实例成本。SageMaker Savings Plans 对 ML 实例使用量应用承诺折扣,降低长期成本。
总结
SageMaker 是整合 ML 全生命周期的平台。在 Studio 中开发,通过托管 Spot 训练将成本削减最高 90%。用 Pipelines 构建 MLOps 流水线,用 Model Monitor 自动检测数据漂移。通过无服务器推理和多模型端点优化部署成本,用 Feature Store 实现团队间的特征共享。