Amazon Rekognition
基于深度学习的图像和视频分析服务,提供物体检测、人脸分析、文本识别和内容审核等功能
概述
Amazon Rekognition 是一项使用深度学习技术分析图像和视频的全托管服务。无需机器学习专业知识,通过 API 即可实现物体和场景检测、人脸检测与分析、人脸比对、文本识别(OCR)、不当内容检测和自定义标签等功能。支持图像的实时分析和存储视频的批量分析,以及通过 Kinesis Video Streams 的流视频分析。
图像分析 API 与检测功能
Rekognition 的图像分析 API 包括 DetectLabels(物体和场景检测)、DetectFaces(人脸检测与属性分析)、CompareFaces(人脸比对)、DetectText(文本识别)和 DetectModerationLabels(不当内容检测)。DetectLabels 可识别数千种物体和场景,返回标签和置信度分数。人脸分析可检测年龄范围、性别、情绪、是否戴眼镜、是否睁眼等属性。Custom Labels 功能允许用少量训练图像(最少 10 张)训练自定义模型,检测业务特有的物体(如特定产品、缺陷类型)。API 按分析的图像数量计费,无最低费用。
视频分析与流处理
视频分析支持存储视频(S3 上的文件)和流视频(Kinesis Video Streams)两种模式。存储视频分析是异步的,通过 StartLabelDetection 等 API 启动分析作业,完成后通过 SNS 通知获取结果。可检测视频中的物体出现时间段、人物追踪、场景变化等。流视频分析通过 Stream Processor 实时处理视频流,适用于实时人脸识别和人数统计。人脸集合(Face Collection)存储人脸特征向量,支持在数百万张人脸中进行毫秒级搜索匹配。适用于门禁系统、照片管理应用等场景。
安全考量与实践架构
使用人脸识别功能时需考虑隐私和伦理问题。Rekognition 提供置信度阈值设置,建议人脸比对场景使用 99% 以上的阈值以减少误识别。数据处理方面,上传的图像和视频仅用于 API 处理,不会被 AWS 用于模型训练(除非明确选择加入)。实践架构中,常见模式是 S3 事件触发 Lambda 调用 Rekognition API,结果存储到 DynamoDB。内容审核场景中,用户上传的图像先经 Rekognition 检测不当内容,通过后才发布。与 Step Functions 结合可构建复杂的图像处理管道:检测→分类→标记→存储。成本优化方面,对频繁分析的图像缓存结果避免重复调用。