Question 1

Amazon SageMaker とは何ですか？

Accepted Answer

Amazon SageMaker 是一项覆盖机器学习（ML）全生命周期的全托管平台。提供从数据标注（Ground Truth）、特征工程（Feature Store）、模型训练（Training）、超参数调优（Hyperparameter Tuning）到模型部署（Endpoints）和监控（Model Monitor）的端到端功能。支持 Jupyter Notebook 环境（Studio）和可视化 ML 管道（Pipelines），降低 ML 工程的门槛。

Question 2

Studio 与 Notebook 环境

Accepted Answer

SageMaker Studio 是基于 Web 的集成开发环境，提供 Jupyter Notebook、代码编辑器、终端和可视化工具。Studio 域（Domain）是用户和资源的管理单元，支持 IAM 和 IAM Identity Center 认证。用户配置文件定义每个用户的默认执行角色和资源配额。Notebook 实例类型从 CPU（ml.t3.medium）到 GPU（ml.g5.xlarge）可选，按使用时间计费。SageMaker Canvas 提供无代码 ML 界面，业务分析师无需编写代码即可构建预测模型。JumpStart 提供预训练模型和解决方案模板的目录，可一键部署基础模型（Foundation Model）进行微调或直接推理。

Question 3

训练与超参数调优

Accepted Answer

SageMaker Training 在托管基础设施上执行模型训练，支持内置算法、自定义容器和主流框架（PyTorch、TensorFlow、Hugging Face）。分布式训练支持数据并行和模型并行，可在数百个 GPU 上训练大规模模型。Spot Training 使用 Spot 实例降低最高 90% 的训练成本，检查点机制确保中断时不丢失进度。超参数调优（HPO）自动搜索最优超参数组合，支持贝叶斯优化、随机搜索和网格搜索策略。SageMaker Experiments 跟踪和比较多次训练运行的参数和指标。Pipelines 将数据处理、训练、评估和注册编排为可重复的 ML 工作流，支持条件步骤和并行执行。

Question 4

部署与模型监控

Accepted Answer

SageMaker Endpoints 提供实时推理端点，支持自动扩缩容和多模型端点（在单个端点上托管数千个模型）。Serverless Inference 适合间歇性流量，空闲时不产生费用。批量转换（Batch Transform）处理大量离线预测。模型注册表（Model Registry）管理模型版本和审批状态，与 CI/CD 管道集成实现模型的自动部署。Model Monitor 持续监控部署模型的数据质量、模型质量、偏差和特征归因漂移，检测到退化时发出告警。推理推荐器（Inference Recommender）基准测试不同实例类型的推理性能，帮助选择最优的部署配置。成本优化方面，Savings Plans 提供计算使用的折扣承诺。

概述

Studio 与 Notebook 环境

训练与超参数调优

部署与模型监控

相关术语

相关服务

相关文章

相似的术语与文章