使用 Amazon Rekognition 实现图像与视频分析 - 从标签检测到自定义模型

使用预训练 API 实现标签检测、人脸分析和文字检测，通过 Custom Labels 构建领域特定的图像识别模型。

約 1 分で読めます最終更新: 2026-01-01

Rekognition 主要功能

Rekognition 是将预训练深度学习模型以 API 形式提供的图像与视频分析服务。主要功能包括标签检测（物体与场景分类）、人脸检测与分析（年龄范围、情绪、面部朝向）、文字检测（图像中的文字识别）、内容审核（不当内容检测）和人脸比对（两张人脸的相似度判定）。全部通过 API 调用使用，无需 ML 模型训练或基础设施管理。

标签检测与文字检测的实现

DetectLabels API 接收 S3 存储桶中的图像或 Base64 编码字节流，返回检测到的标签（如 Car、Tree、Person）和置信度分数（0-100%）。通过 MinConfidence 参数设置置信度阈值控制误检。还返回边界框坐标，可定位物体在图像中的位置。DetectText API 检测图像中的文字，支持印刷体和手写体，返回检测到的文字、置信度和边界框。

Custom Labels 自定义模型构建

Custom Labels 是应对 Rekognition 预训练模型无法覆盖的自定义分类与检测任务的功能。例如制造产线不良品检测、零售商品货架分析、农业作物病害检测等需要领域特定图像识别的场景。构建模型所需的训练数据从数十张图像即可开始。将图像上传到 S3，在 Rekognition 控制台或使用 SageMaker Ground Truth 进行标注，然后启动训练。训练完成后部署推理端点即可通过 API 使用自定义模型。关于图像识别技术的详细解析，可参考Amazon 相关书籍。

Rekognition 定价

Rekognition 按处理图像数量按量计费。标签检测前 100 万张/月每千张约 1.00 美元，人脸检测每千张约 1.00 美元，文字检测每千张约 1.00 美元。每月 5,000 张以内的图像分析包含在免费套餐中。Custom Labels 按推理端点小时计费（每小时约 4.00 美元），仅在需要推理时启动端点可优化成本。

总结

Rekognition 是无需 ML 专业知识即可实现图像与视频分析的服务。预训练 API 覆盖通用用例，Custom Labels 可应对领域特定需求。结合 S3 和 Lambda 的事件驱动架构，可构建以图像上传为触发器的自动分析管道。

Rekognition 主要功能

标签检测与文字检测的实现

Custom Labels 自定义模型构建

Rekognition 定价

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务