Implementación de análisis de imágenes y video con Amazon Rekognition - Desde detección de etiquetas hasta modelos personalizados
Presentamos cómo implementar detección de etiquetas, análisis facial y detección de texto con APIs preentrenadas, y cómo construir modelos de reconocimiento de imágenes específicos del dominio con Custom Labels.
Funciones principales de Rekognition
Rekognition es un servicio de análisis de imágenes y video que ofrece modelos de aprendizaje profundo preentrenados como API. Sus funciones principales son: detección de etiquetas (clasificación de objetos y escenas), detección y análisis facial (rango de edad, emociones, orientación del rostro), detección de texto (reconocimiento de caracteres en imágenes), moderación de contenido (detección de contenido inapropiado) y comparación facial (determinación de similitud entre dos rostros). Todo se utiliza mediante llamadas API, sin necesidad de entrenar modelos ML ni gestionar infraestructura. La tarificación es por uso según la cantidad de imágenes y videos procesados, con un nivel gratuito que incluye hasta 5.000 imágenes al mes.
Implementación de detección de etiquetas y texto
La API DetectLabels recibe imágenes desde un bucket S3 o como bytes codificados en Base64, y devuelve las etiquetas detectadas (por ejemplo: Car, Tree, Person) con una puntuación de confianza (0-100%). El parámetro MinConfidence permite establecer un umbral de confianza para controlar los falsos positivos. También se devuelven las coordenadas del bounding box, permitiendo identificar dónde se encuentra cada objeto en la imagen. La API DetectText detecta texto impreso y manuscrito en imágenes y lo extrae como cadenas de texto. Puede detectar hasta 100 elementos de texto por imagen, devolviendo la información de posición y puntuación de confianza de cada texto. Cubre una amplia gama de casos de uso de OCR como lectura de etiquetas de productos en líneas de fabricación, reconocimiento de matrículas en estacionamientos y digitalización de documentos.
Construcción de modelos propios con Custom Labels
Custom Labels es una función para tareas de clasificación y detección propias que no pueden abordarse con los modelos preentrenados de Rekognition. Se utiliza en escenarios que requieren reconocimiento de imágenes específico del dominio, como detección de defectos en líneas de fabricación, análisis de estantes en tiendas minoristas o detección de enfermedades en cultivos agrícolas. Se puede comenzar a construir un modelo con tan solo unas decenas de imágenes de entrenamiento. Se suben las imágenes a S3, se etiquetan mediante la consola de Rekognition o SageMaker Ground Truth, y se inicia el entrenamiento. Una vez completado, se activa un endpoint de inferencia y se ejecutan las predicciones del modelo propio a través de la API. El endpoint de inferencia se cobra por hora, por lo que se detiene en los períodos sin uso para reducir costos. Para quienes deseen aprender sobre Rekognition de forma sistemática, los libros relacionados (Amazon) también son una buena referencia.
Precios de Rekognition
Los precios de Rekognition se basan en el pago por uso según el número de imágenes procesadas. La detección de etiquetas cuesta aproximadamente 1,00 dólar por cada 1.000 imágenes para el primer millón al mes, la detección facial aproximadamente 1,00 dólar por cada 1.000 imágenes y la detección de texto aproximadamente 1,00 dólar por cada 1.000 imágenes. El nivel gratuito incluye hasta 5.000 imágenes de análisis al mes. Para Custom Labels, el costo principal es el cargo por hora del endpoint de inferencia (aproximadamente 4,00 dólares por hora), que se detiene en períodos sin uso para reducir costos. El entrenamiento cuesta aproximadamente 1,00 dólar por hora.
Resumen
Rekognition es un servicio que permite implementar análisis de imágenes y video sin conocimientos especializados en ML. Las APIs preentrenadas cubren los casos de uso generales, y Custom Labels permite abordar requisitos específicos del dominio. Combinando S3 y Lambda en una arquitectura dirigida por eventos, se pueden construir pipelines de análisis automático activados por la carga de imágenes.