使用 Amazon Rekognition 实现图像与视频分析 - 从标签检测到自定义模型

使用预训练 API 实现标签检测、人脸分析和文字检测,通过 Custom Labels 构建领域特定的图像识别模型。

Rekognition 主要功能

Rekognition 是将预训练深度学习模型以 API 形式提供的图像与视频分析服务。主要功能包括标签检测(物体与场景分类)、人脸检测与分析(年龄范围、情绪、面部朝向)、文字检测(图像中的文字识别)、内容审核(不当内容检测)和人脸比对(两张人脸的相似度判定)。全部通过 API 调用使用,无需 ML 模型训练或基础设施管理。

标签检测与文字检测的实现

DetectLabels API 接收 S3 存储桶中的图像或 Base64 编码字节流,返回检测到的标签(如 Car、Tree、Person)和置信度分数(0-100%)。通过 MinConfidence 参数设置置信度阈值控制误检。还返回边界框坐标,可定位物体在图像中的位置。DetectText API 检测图像中的文字,支持印刷体和手写体,返回检测到的文字、置信度和边界框。

Custom Labels 自定义模型构建

Custom Labels 是应对 Rekognition 预训练模型无法覆盖的自定义分类与检测任务的功能。例如制造产线不良品检测、零售商品货架分析、农业作物病害检测等需要领域特定图像识别的场景。构建模型所需的训练数据从数十张图像即可开始。将图像上传到 S3,在 Rekognition 控制台或使用 SageMaker Ground Truth 进行标注,然后启动训练。训练完成后部署推理端点即可通过 API 使用自定义模型。 关于图像识别技术的详细解析,可参考Amazon 相关书籍

Rekognition 定价

Rekognition 按处理图像数量按量计费。标签检测前 100 万张/月每千张约 1.00 美元,人脸检测每千张约 1.00 美元,文字检测每千张约 1.00 美元。每月 5,000 张以内的图像分析包含在免费套餐中。Custom Labels 按推理端点小时计费(每小时约 4.00 美元),仅在需要推理时启动端点可优化成本。

总结

Rekognition 是无需 ML 专业知识即可实现图像与视频分析的服务。预训练 API 覆盖通用用例,Custom Labels 可应对领域特定需求。结合 S3 和 Lambda 的事件驱动架构,可构建以图像上传为触发器的自动分析管道。