AWS Clean Rooms ML

Función de colaboración ML con protección de privacidad que permite entrenar e inferir modelos de machine learning de forma conjunta entre múltiples organizaciones sin compartir datos

Descripción general

AWS Clean Rooms ML es una extensión de AWS Clean Rooms que permite a múltiples organizaciones ejecutar entrenamiento e inferencia de modelos de machine learning de forma conjunta sin compartir directamente sus datos brutos. Permite la generación de audiencias similares y la construcción de modelos de predicción de conversión entre socios de colaboración de datos como anunciantes y publishers, minoristas y fabricantes, protegiendo la privacidad. Utiliza mecanismos de protección como privacidad diferencial y computación segura para garantizar que los datos individuales no se filtren durante el proceso de ML.

Generación de audiencias similares con Lookalike Modeling

La función principal de Clean Rooms ML es Lookalike Modeling, que genera audiencias similares a los clientes existentes de alta conversión. El anunciante proporciona una lista semilla (lista de clientes de alta conversión) y el publisher proporciona datos de su audiencia, y el modelo identifica usuarios en la audiencia del publisher que son similares a la lista semilla. Todo el proceso se ejecuta dentro del entorno de Clean Rooms, por lo que el anunciante no puede ver los datos individuales de la audiencia del publisher, y el publisher no puede ver la lista de clientes del anunciante. El modelo generado se puede utilizar directamente para la segmentación de campañas publicitarias, mejorando la eficiencia de la inversión publicitaria. A diferencia de los enfoques tradicionales que requerían compartir datos con terceros, Clean Rooms ML permite la colaboración de datos cumpliendo con las regulaciones de privacidad.

Mecanismos técnicos de protección de privacidad

Clean Rooms ML emplea múltiples capas de protección de privacidad. Primero, los datos nunca salen de la cuenta AWS de cada participante; solo los parámetros del modelo y los resultados agregados se intercambian. Segundo, se aplica privacidad diferencial para agregar ruido estadístico a los resultados del modelo, haciendo matemáticamente imposible inferir información sobre individuos específicos. Tercero, se establecen umbrales mínimos de tamaño de audiencia para los resultados, previniendo la generación de segmentos demasiado pequeños que podrían identificar individuos. Libros sobre protección de privacidad (Amazon) permiten aprender sobre las bases teóricas de la privacidad diferencial.

Diseño de colaboraciones y consideraciones prácticas

La implementación de Clean Rooms ML requiere un diseño cuidadoso de la colaboración. Primero, ambas partes deben acordar el esquema de datos (qué columnas se utilizan como características, cuál es la clave de unión). Segundo, se debe definir la frecuencia de actualización del modelo (semanal, mensual) y el periodo de validez de los resultados. Tercero, se deben establecer métricas de evaluación del modelo (AUC, precisión, recall) y umbrales mínimos de rendimiento. En cuanto a costos, se cobra por el entrenamiento del modelo y por cada inferencia, por lo que es importante estimar el volumen de datos y la frecuencia de uso de antemano. La integración con Lake Formation permite un control de acceso granular a los datos, y la combinación con los registros de auditoría de CloudTrail permite rastrear quién ejecutó qué análisis y cuándo, cumpliendo con los requisitos de compliance.

共有するXB!