Amazon Macie
通过机器学习自动检测 S3 存储桶中的敏感数据 (个人信息、信用卡号等),可视化数据安全风险的服务
概述
Amazon Macie 是一项数据安全服务,自动扫描 S3 存储桶中的数据,检测个人身份信息 (PII)、信用卡号、API 密钥、密码等敏感数据。结合机器学习和正则表达式模式匹配可识别 100 多种敏感数据类型,还可通过自定义数据标识符定义独有模式 (员工编号、客户 ID 等)。与 Security Hub 集成可将发现结果集中管理,与 EventBridge 联动可构建自动修复管道。
两阶段检测流程与自定义标识符
Macie 的检测分两个阶段进行。第一阶段是存储桶级别的清单评估,分析所有 S3 存储桶的公开访问设置、加密状态、共享状态,识别高风险存储桶。第二阶段是对象级别的敏感数据发现,对存储桶内的对象进行采样或全量扫描,检测敏感数据。内置标识符覆盖信用卡号、社会保障号、护照号、电子邮件地址等全球通用的敏感数据模式。自定义数据标识符通过正则表达式和关键词定义组织特有的敏感数据模式,例如「EMP-后跟6位数字」的员工编号模式。允许列表功能可排除已知的安全数据 (测试用信用卡号等) 以减少误报。
合规审计的数据盘点
GDPR、PCI DSS、HIPAA 等合规框架要求组织掌握敏感数据的存储位置。Macie 的敏感数据发现作业可定期扫描指定存储桶,持续监控敏感数据的分布。发现结果按严重程度分类 (高/中/低),可优先处理高风险发现。数据分类结果可导出为 JSON 格式存储到 S3,用 Athena 进行分析以生成合规报告。Organizations 集成可从管理账户集中管理所有成员账户的 Macie,实现组织范围的数据安全态势可视化。
自动修复管道与成本管理
Macie 检测到敏感数据后,可通过 EventBridge → Lambda 的管道自动执行修复操作。典型的自动修复包括:对包含敏感数据的对象自动应用 KMS 加密、阻止公开访问的存储桶策略修正、向安全团队发送 SNS 通知。成本管理方面,Macie 按扫描的数据量计费 (前 50 TB 为 $1/GB),全量扫描大型存储桶成本较高。推荐策略是首次全量扫描后切换为增量扫描 (仅扫描新增/变更对象),并通过存储桶前缀限定扫描范围以控制成本。