Amazon SageMaker

覆盖机器学习全生命周期的全托管平台,从数据准备、模型训练到部署和监控提供一站式支持

概述

Amazon SageMaker 是一项覆盖机器学习(ML)全生命周期的全托管平台。提供从数据标注(Ground Truth)、特征工程(Feature Store)、模型训练(Training)、超参数调优(Hyperparameter Tuning)到模型部署(Endpoints)和监控(Model Monitor)的端到端功能。支持 Jupyter Notebook 环境(Studio)和可视化 ML 管道(Pipelines),降低 ML 工程的门槛。

Studio 与 Notebook 环境

SageMaker Studio 是基于 Web 的集成开发环境,提供 Jupyter Notebook、代码编辑器、终端和可视化工具。Studio 域(Domain)是用户和资源的管理单元,支持 IAMIAM Identity Center 认证。用户配置文件定义每个用户的默认执行角色和资源配额。Notebook 实例类型从 CPU(ml.t3.medium)到 GPU(ml.g5.xlarge)可选,按使用时间计费。SageMaker Canvas 提供无代码 ML 界面,业务分析师无需编写代码即可构建预测模型。JumpStart 提供预训练模型和解决方案模板的目录,可一键部署基础模型(Foundation Model)进行微调或直接推理。

训练与超参数调优

SageMaker Training 在托管基础设施上执行模型训练,支持内置算法、自定义容器和主流框架(PyTorch、TensorFlow、Hugging Face)。分布式训练支持数据并行和模型并行,可在数百个 GPU 上训练大规模模型。Spot Training 使用 Spot 实例降低最高 90% 的训练成本,检查点机制确保中断时不丢失进度。超参数调优(HPO)自动搜索最优超参数组合,支持贝叶斯优化、随机搜索和网格搜索策略。SageMaker Experiments 跟踪和比较多次训练运行的参数和指标。Pipelines 将数据处理、训练、评估和注册编排为可重复的 ML 工作流,支持条件步骤和并行执行。

部署与模型监控

SageMaker Endpoints 提供实时推理端点,支持自动扩缩容和多模型端点(在单个端点上托管数千个模型)。Serverless Inference 适合间歇性流量,空闲时不产生费用。批量转换(Batch Transform)处理大量离线预测。模型注册表(Model Registry)管理模型版本和审批状态,与 CI/CD 管道集成实现模型的自动部署。Model Monitor 持续监控部署模型的数据质量、模型质量、偏差和特征归因漂移,检测到退化时发出告警。推理推荐器(Inference Recommender)基准测试不同实例类型的推理性能,帮助选择最优的部署配置。成本优化方面,Savings Plans 提供计算使用的折扣承诺。

共有するXB!