ML con preservación de privacidad con AWS Clean Rooms ML - Construya modelos sin compartir datos

Aprenda cómo construir modelos lookalike con Clean Rooms ML, aplicar privacidad diferencial y aprovechar los resultados para segmentación publicitaria.

Descripción general de Clean Rooms ML

Clean Rooms ML es un servicio que permite construir modelos de ML mientras se preserva la privacidad dentro de Clean Rooms, soportando conjuntos de datos con millones de registros. Los anunciantes y editores pueden construir conjuntamente modelos lookalike y generar segmentos de usuarios similares sin ver directamente los datos del otro. Las técnicas de privacidad diferencial proporcionan garantías matemáticas de que los datos individuales están protegidos, mientras maximizan la efectividad del marketing. A medida que las cookies de terceros se eliminan progresivamente, este servicio está ganando atención como un medio para colaborar de forma segura con datos de primera parte.

Modelos lookalike y privacidad diferencial

Un modelo lookalike es un modelo de ML que identifica nuevos usuarios que se asemejan a clientes de alto valor existentes. El anunciante proporciona una lista de usuarios convertidos (datos semilla), y el modelo extrae usuarios similares de los datos de audiencia del editor. Se recomienda un tamaño de datos semilla de varios cientos a varios miles de registros; muy pocos registros reducen la precisión del modelo. La privacidad diferencial agrega ruido a la salida del modelo, garantizando matemáticamente que los datos a nivel individual no pueden ser inferidos. Valores más bajos de epsilon (ε) proporcionan mayor protección de privacidad pero reducen la precisión del modelo, por lo que ajustar el valor según el caso de uso es importante. Los segmentos lookalike resultantes se utilizan para la segmentación de campañas publicitarias para mejorar las tasas de conversión. Para profundizar sus conocimientos sobre ML con privacidad, libros especializados en Amazon pueden ser útiles.

Diseño de una colaboración

En una colaboración de Clean Rooms, se define el alcance de datos que cada participante proporciona y las reglas de análisis. Las reglas de análisis especifican los tipos de consultas permitidas (solo agregación, si se permite la salida de listas) y la unidad mínima de agregación (por ejemplo, solo agregaciones de 100 o más registros), previniendo la extracción de datos a nivel individual. Para la construcción del modelo ML, el anunciante proporciona datos semilla (usuarios convertidos), que se comparan con los datos de audiencia del editor para generar segmentos lookalike. Se ajusta el valor epsilon de privacidad diferencial para controlar el equilibrio entre la fortaleza de la protección de privacidad y la precisión del modelo. Los resultados de salida se devuelven solo a un nivel agregado que no puede identificar individuos, de acuerdo con las reglas de análisis de la colaboración.

Precios de Clean Rooms ML

Los precios de Clean Rooms se basan en el volumen de datos escaneados por consulta. La construcción de modelos ML genera cargos adicionales, con tarifas separadas para el entrenamiento del modelo lookalike y la generación de segmentos. Habilitar la privacidad diferencial añade costos computacionales por la inyección de ruido. Es común dividir los costos entre los participantes de la colaboración, con la parte que ejecuta las consultas asumiendo los cargos de procesamiento. Para conjuntos de datos grandes, puede optimizar costos reduciendo el período de análisis y las columnas para disminuir el volumen de escaneo. Almacenar datos en S3 usando formato Parquet particionado mejora la eficiencia de escaneo de consultas.

Casos de uso y patrones de aplicación

Estos son los casos de uso representativos de Clean Rooms ML. En segmentación publicitaria, la lista de compradores de un sitio de comercio electrónico sirve como datos semilla, y se generan segmentos lookalike a partir de los datos de audiencia de una empresa de medios para mejorar el ROI de campañas publicitarias. En redes de medios de retail, los datos de compra del minorista y los datos de conversión del anunciante se combinan de forma segura para identificar usuarios en línea que probablemente realicen compras en tienda. En servicios financieros, bancos y compañías de seguros analizan conjuntamente segmentos de clientes para venta cruzada sin compartir directamente información personal. En salud, compañías farmacéuticas e instituciones médicas analizan conjuntamente datos clínicos de forma no identificable para identificar grupos de pacientes con alta eficacia de tratamiento. En todos los casos, Clean Rooms ML funciona como un medio para colaborar sin perder valor analítico cuando el intercambio directo de datos está prohibido por regulaciones o políticas de privacidad.

Comparación con otras tecnologías de preservación de privacidad

Comparando Clean Rooms ML con otras tecnologías de preservación de privacidad: Las salas limpias de datos tradicionales (Snowflake Data Clean Room, Google Ads Data Hub, etc.) se centran en consultas de agregación basadas en SQL y no soportan la construcción conjunta de modelos ML. Clean Rooms ML se diferencia al proporcionar entrenamiento gestionado de modelos lookalike. El Aprendizaje Federado entrena modelos sin mover datos pero requiere coordinación compleja de actualizaciones de modelo entre participantes, resultando en altos costos de implementación. Clean Rooms ML minimiza la sobrecarga de construcción y operación como servicio gestionado de AWS. La Computación Segura Multi-Parte tiene altos costos computacionales y puede ser difícil de aplicar a conjuntos de datos grandes, mientras que la privacidad diferencial logra protección escalable a través de inyección de ruido ligera. La k-anonimización y el enmascaramiento de datos son enfoques de preprocesamiento estático que no proporcionan garantías matemáticas como la privacidad diferencial.

Resumen

Clean Rooms ML es un servicio que construye modelos de ML con preservación de privacidad sin compartir datos. El valor epsilon de privacidad diferencial controla el equilibrio entre la fortaleza de protección y la precisión del modelo, mientras que las reglas de análisis previenen la extracción de datos a nivel individual. Permite la generación segura de segmentos lookalike entre anunciantes y editores sin compartir datos directamente.