ML con preservación de privacidad con AWS Clean Rooms ML - Construya modelos sin compartir datos

Aprenda cómo construir modelos lookalike con Clean Rooms ML, aplicar privacidad diferencial y aprovechar los resultados para segmentación publicitaria.

約 7 分で読めます最終更新: 2026-05-20

Descripción general de Clean Rooms ML

Clean Rooms ML es un servicio que permite construir modelos de ML mientras se preserva la privacidad dentro de Clean Rooms, soportando conjuntos de datos con millones de registros. Los anunciantes y editores pueden construir conjuntamente modelos lookalike y generar segmentos de usuarios similares sin ver directamente los datos del otro. Las técnicas de privacidad diferencial proporcionan garantías matemáticas de que los datos individuales están protegidos, mientras maximizan la efectividad del marketing. A medida que las cookies de terceros se eliminan progresivamente, este servicio está ganando atención como un medio para colaborar de forma segura con datos de primera parte.

Modelos lookalike y privacidad diferencial

Un modelo lookalike es un modelo de ML que identifica nuevos usuarios que se asemejan a clientes de alto valor existentes. El anunciante proporciona una lista de usuarios convertidos (datos semilla), y el modelo extrae usuarios similares de los datos de audiencia del editor. Se recomienda un tamaño de datos semilla de varios cientos a varios miles de registros; muy pocos registros reducen la precisión del modelo. La privacidad diferencial agrega ruido a la salida del modelo, garantizando matemáticamente que los datos a nivel individual no pueden ser inferidos. Valores más bajos de epsilon (ε) proporcionan mayor protección de privacidad pero reducen la precisión del modelo, por lo que ajustar el valor según el caso de uso es importante. Los segmentos lookalike resultantes se utilizan para la segmentación de campañas publicitarias para mejorar las tasas de conversión. Para profundizar sus conocimientos sobre ML con privacidad, libros especializados en Amazon pueden ser útiles.

Diseño de una colaboración

En una colaboración de Clean Rooms, se define el alcance de datos que cada participante proporciona y las reglas de análisis. Las reglas de análisis especifican los tipos de consultas permitidas (solo agregación, si se permite la salida de listas) y la unidad mínima de agregación (por ejemplo, solo agregaciones de 100 o más registros), previniendo la extracción de datos a nivel individual. Para la construcción del modelo ML, el anunciante proporciona datos semilla (usuarios convertidos), que se comparan con los datos de audiencia del editor para generar segmentos lookalike. Se ajusta el valor epsilon de privacidad diferencial para controlar el equilibrio entre la fortaleza de la protección de privacidad y la precisión del modelo. Los resultados de salida se devuelven solo a un nivel agregado que no puede identificar individuos, de acuerdo con las reglas de análisis de la colaboración.

Precios de Clean Rooms ML

Los precios de Clean Rooms se basan en el volumen de datos escaneados por consulta. La construcción de modelos ML genera cargos adicionales, con tarifas separadas para el entrenamiento del modelo lookalike y la generación de segmentos. Habilitar la privacidad diferencial añade costos computacionales por la inyección de ruido. Es común dividir los costos entre los participantes de la colaboración, con la parte que ejecuta las consultas asumiendo los cargos de procesamiento. Para conjuntos de datos grandes, puede optimizar costos reduciendo el período de análisis y las columnas para disminuir el volumen de escaneo. Almacenar datos en S3 usando formato Parquet particionado mejora la eficiencia de escaneo de consultas.

Casos de uso y patrones de aplicación

Estos son los casos de uso representativos de Clean Rooms ML. En segmentación publicitaria, la lista de compradores de un sitio de comercio electrónico sirve como datos semilla, y se generan segmentos lookalike a partir de los datos de audiencia de una empresa de medios para mejorar el ROI de campañas publicitarias. En redes de medios de retail, los datos de compra del minorista y los datos de conversión del anunciante se combinan de forma segura para identificar usuarios en línea que probablemente realicen compras en tienda. En servicios financieros, bancos y compañías de seguros analizan conjuntamente segmentos de clientes para venta cruzada sin compartir directamente información personal. En salud, compañías farmacéuticas e instituciones médicas analizan conjuntamente datos clínicos de forma no identificable para identificar grupos de pacientes con alta eficacia de tratamiento. En todos los casos, Clean Rooms ML funciona como un medio para colaborar sin perder valor analítico cuando el intercambio directo de datos está prohibido por regulaciones o políticas de privacidad.

Comparación con otras tecnologías de preservación de privacidad

Comparando Clean Rooms ML con otras tecnologías de preservación de privacidad: Las salas limpias de datos tradicionales (Snowflake Data Clean Room, Google Ads Data Hub, etc.) se centran en consultas de agregación basadas en SQL y no soportan la construcción conjunta de modelos ML. Clean Rooms ML se diferencia al proporcionar entrenamiento gestionado de modelos lookalike. El Aprendizaje Federado entrena modelos sin mover datos pero requiere coordinación compleja de actualizaciones de modelo entre participantes, resultando en altos costos de implementación. Clean Rooms ML minimiza la sobrecarga de construcción y operación como servicio gestionado de AWS. La Computación Segura Multi-Parte tiene altos costos computacionales y puede ser difícil de aplicar a conjuntos de datos grandes, mientras que la privacidad diferencial logra protección escalable a través de inyección de ruido ligera. La k-anonimización y el enmascaramiento de datos son enfoques de preprocesamiento estático que no proporcionan garantías matemáticas como la privacidad diferencial.

Resumen

Clean Rooms ML es un servicio que construye modelos de ML con preservación de privacidad sin compartir datos. El valor epsilon de privacidad diferencial controla el equilibrio entre la fortaleza de protección y la precisión del modelo, mientras que las reglas de análisis previenen la extracción de datos a nivel individual. Permite la generación segura de segmentos lookalike entre anunciantes y editores sin compartir datos directamente.

Entrenamiento de machine learning basado en GPU con AWS Batch - Entrenamiento a gran escala con eficiencia de costosEjecute entrenamiento GPU con sus contenedores Docker existentes y reduzca costos hasta un 90% usando instancias Spot y checkpointing. Incluye orientación sobre cuándo elegir Batch sobre SageMaker.Uso de Claude en Amazon Bedrock - Selección de modelos, diseño de prompts y optimización de costosComparamos los modelos Anthropic Claude disponibles en Amazon Bedrock, proporcionamos directrices de selección de modelos por caso de uso y cubrimos mejores prácticas de diseño de prompts y optimización de costos.Construcción de aplicaciones RAG con Amazon Bedrock Knowledge Bases - Implementación de generación aumentada por recuperaciónIndexe automáticamente documentos en S3 y unifique búsqueda y generación con la API RetrieveAndGenerate. Cubre la selección de estrategia de chunking y la seguridad con Guardrails.Primeros pasos con computación cuántica en Amazon Braket - Diseño y simulación de circuitos cuánticosPrototipe gratis con simuladores locales y luego ejecute circuitos cuánticos en hardware IonQ y Rigetti. Cubre la implementación de VQE y QAOA con trabajos híbridos.Procesamiento de lenguaje natural con Amazon Comprehend - Análisis de sentimiento y extracción de entidadesExplicamos el análisis de sentimiento, la extracción de entidades y la construcción de modelos de clasificación personalizados con Comprehend.Construcción de bots conversacionales - Interfaces de conversación natural con Amazon Lex y PollyAprenda a construir bots conversacionales utilizando Amazon Lex y Amazon Polly.Extracción de texto de documentos - Procesamiento inteligente de documentos con Amazon TextractExplicamos la extracción automática de texto, tablas y datos de formularios de documentos con Amazon Textract, y la construcción de pipelines de procesamiento de lenguaje natural en combinación con Amazon Comprehend. Presentamos patrones de automatización para procesamiento de facturas y análisis de contratos.Visión por computadora en el borde - Análisis de video con IA en sitio usando AWS PanoramaDespliega modelos de visión por computadora en el Panorama Appliance y analiza en tiempo real las transmisiones de cámaras IP existentes. Aprende patrones de diseño para inferencia en el borde que reducen la latencia y ahorran ancho de banda.

Descripción general de Clean Rooms ML

Modelos lookalike y privacidad diferencial

Diseño de una colaboración

Precios de Clean Rooms ML

Casos de uso y patrones de aplicación

Comparación con otras tecnologías de preservación de privacidad

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares