Implementación de análisis de imágenes y video con Amazon Rekognition - Desde detección de etiquetas hasta modelos personalizados

Presentamos cómo implementar detección de etiquetas, análisis facial y detección de texto con APIs preentrenadas, y cómo construir modelos de reconocimiento de imágenes específicos del dominio con Custom Labels.

約 4 分で読めます最終更新: 2026-01-01

Funciones principales de Rekognition

Rekognition es un servicio de análisis de imágenes y video que ofrece modelos de aprendizaje profundo preentrenados como API. Sus funciones principales son: detección de etiquetas (clasificación de objetos y escenas), detección y análisis facial (rango de edad, emociones, orientación del rostro), detección de texto (reconocimiento de caracteres en imágenes), moderación de contenido (detección de contenido inapropiado) y comparación facial (determinación de similitud entre dos rostros). Todo se utiliza mediante llamadas API, sin necesidad de entrenar modelos ML ni gestionar infraestructura. La tarificación es por uso según la cantidad de imágenes y videos procesados, con un nivel gratuito que incluye hasta 5.000 imágenes al mes.

Implementación de detección de etiquetas y texto

La API DetectLabels recibe imágenes desde un bucket S3 o como bytes codificados en Base64, y devuelve las etiquetas detectadas (por ejemplo: Car, Tree, Person) con una puntuación de confianza (0-100%). El parámetro MinConfidence permite establecer un umbral de confianza para controlar los falsos positivos. También se devuelven las coordenadas del bounding box, permitiendo identificar dónde se encuentra cada objeto en la imagen. La API DetectText detecta texto impreso y manuscrito en imágenes y lo extrae como cadenas de texto. Puede detectar hasta 100 elementos de texto por imagen, devolviendo la información de posición y puntuación de confianza de cada texto. Cubre una amplia gama de casos de uso de OCR como lectura de etiquetas de productos en líneas de fabricación, reconocimiento de matrículas en estacionamientos y digitalización de documentos.

Construcción de modelos propios con Custom Labels

Custom Labels es una función para tareas de clasificación y detección propias que no pueden abordarse con los modelos preentrenados de Rekognition. Se utiliza en escenarios que requieren reconocimiento de imágenes específico del dominio, como detección de defectos en líneas de fabricación, análisis de estantes en tiendas minoristas o detección de enfermedades en cultivos agrícolas. Se puede comenzar a construir un modelo con tan solo unas decenas de imágenes de entrenamiento. Se suben las imágenes a S3, se etiquetan mediante la consola de Rekognition o SageMaker Ground Truth, y se inicia el entrenamiento. Una vez completado, se activa un endpoint de inferencia y se ejecutan las predicciones del modelo propio a través de la API. El endpoint de inferencia se cobra por hora, por lo que se detiene en los períodos sin uso para reducir costos. Para quienes deseen aprender sobre Rekognition de forma sistemática, los libros relacionados (Amazon) también son una buena referencia.

Precios de Rekognition

Los precios de Rekognition se basan en el pago por uso según el número de imágenes procesadas. La detección de etiquetas cuesta aproximadamente 1,00 dólar por cada 1.000 imágenes para el primer millón al mes, la detección facial aproximadamente 1,00 dólar por cada 1.000 imágenes y la detección de texto aproximadamente 1,00 dólar por cada 1.000 imágenes. El nivel gratuito incluye hasta 5.000 imágenes de análisis al mes. Para Custom Labels, el costo principal es el cargo por hora del endpoint de inferencia (aproximadamente 4,00 dólares por hora), que se detiene en períodos sin uso para reducir costos. El entrenamiento cuesta aproximadamente 1,00 dólar por hora.

Resumen

Rekognition es un servicio que permite implementar análisis de imágenes y video sin conocimientos especializados en ML. Las APIs preentrenadas cubren los casos de uso generales, y Custom Labels permite abordar requisitos específicos del dominio. Combinando S3 y Lambda en una arquitectura dirigida por eventos, se pueden construir pipelines de análisis automático activados por la carga de imágenes.

Entrenamiento de machine learning basado en GPU con AWS Batch - Entrenamiento a gran escala con eficiencia de costosEjecute entrenamiento GPU con sus contenedores Docker existentes y reduzca costos hasta un 90% usando instancias Spot y checkpointing. Incluye orientación sobre cuándo elegir Batch sobre SageMaker.Uso de Claude en Amazon Bedrock - Selección de modelos, diseño de prompts y optimización de costosComparamos los modelos Anthropic Claude disponibles en Amazon Bedrock, proporcionamos directrices de selección de modelos por caso de uso y cubrimos mejores prácticas de diseño de prompts y optimización de costos.Construcción de aplicaciones RAG con Amazon Bedrock Knowledge Bases - Implementación de generación aumentada por recuperaciónIndexe automáticamente documentos en S3 y unifique búsqueda y generación con la API RetrieveAndGenerate. Cubre la selección de estrategia de chunking y la seguridad con Guardrails.Primeros pasos con computación cuántica en Amazon Braket - Diseño y simulación de circuitos cuánticosPrototipe gratis con simuladores locales y luego ejecute circuitos cuánticos en hardware IonQ y Rigetti. Cubre la implementación de VQE y QAOA con trabajos híbridos.ML con preservación de privacidad con AWS Clean Rooms ML - Construya modelos sin compartir datosAprenda cómo construir modelos lookalike con Clean Rooms ML, aplicar privacidad diferencial y aprovechar los resultados para segmentación publicitaria.Procesamiento de lenguaje natural con Amazon Comprehend - Análisis de sentimiento y extracción de entidadesExplicamos el análisis de sentimiento, la extracción de entidades y la construcción de modelos de clasificación personalizados con Comprehend.Construcción de bots conversacionales - Interfaces de conversación natural con Amazon Lex y PollyAprenda a construir bots conversacionales utilizando Amazon Lex y Amazon Polly.Extracción de texto de documentos - Procesamiento inteligente de documentos con Amazon TextractExplicamos la extracción automática de texto, tablas y datos de formularios de documentos con Amazon Textract, y la construcción de pipelines de procesamiento de lenguaje natural en combinación con Amazon Comprehend. Presentamos patrones de automatización para procesamiento de facturas y análisis de contratos.

Funciones principales de Rekognition

Implementación de detección de etiquetas y texto

Construcción de modelos propios con Custom Labels

Precios de Rekognition

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares