Colaboración de datos con preservación de privacidad con AWS Clean Rooms

Ejecute análisis conjuntos entre múltiples empresas sin compartir ni copiar datos. Aprenda sobre reglas de agregación para prevenir la identificación individual y Cryptographic Computing para análisis cifrado.

Descripción general de Clean Rooms y casos de uso

AWS Clean Rooms es un servicio que permite a múltiples empresas realizar análisis conjuntos de datos sin compartir ni copiar los datos subyacentes. A medida que GDPR y las leyes de protección de datos personales se vuelven más estrictas dificultando el intercambio de datos entre empresas, Clean Rooms proporciona un medio para extraer valor de los datos preservando la privacidad. Los casos de uso representativos incluyen la medición de efectividad publicitaria (emparejar datos de anunciantes y editores para analizar conversiones), investigación sanitaria (anonimizar datos de pacientes de múltiples instituciones médicas para investigación conjunta) y análisis de riesgo financiero (agregar datos de transacciones de múltiples instituciones financieras para construir modelos de riesgo). Desde 2024, a medida que avanza la deprecación de cookies de terceros, el interés ha aumentado rápidamente en Clean Rooms como medio para la colaboración de datos first-party entre anunciantes y editores.

Colaboraciones y reglas de análisis

Una colaboración consiste en miembros participantes (empresas) y sus roles (proveedor de datos, ejecutor de análisis). Cada miembro registra sus datos en S3 como una tabla de Glue Data Catalog y la asocia con la colaboración. Las reglas de análisis controlan los tipos de consultas permitidas. Las reglas de agregación permiten solo funciones de agregación como COUNT, SUM y AVG, prohibiendo la salida de registros individuales. Establecer un umbral mínimo de agregación (por ejemplo, 100 o más registros, configurable hasta 500) elimina el riesgo de identificar individuos a partir de conjuntos pequeños de registros. Las reglas de lista permiten la salida de listas de registros que coinciden con condiciones específicas, pero las columnas de salida pueden restringirse. Las Configured Tables proporcionan control por tabla sobre columnas unibles, columnas filtrables y columnas de salida, minimizando el alcance de exposición de datos. Para profundizar sus conocimientos sobre colaboración de datos, libros especializados en Amazon pueden ser útiles.

Cryptographic Computing

Cryptographic Computing de Clean Rooms ML es una función que ejecuta análisis sobre datos cifrados. Los proveedores de datos registran datos en estado cifrado en Clean Rooms, y los ejecutores de análisis ejecutan consultas contra los datos cifrados. Solo los resultados del análisis se descifran y devuelven, sin exponer nunca los datos sin procesar. Esta tecnología permite el análisis conjunto mientras garantiza matemáticamente la confidencialidad de los datos. Cryptographic Computing actualmente soporta coincidencia por similitud (identificar registros comunes entre dos conjuntos de datos) y puede usarse para coincidencia de audiencias publicitarias y reconciliación de listas de clientes.

Mejores prácticas de diseño y errores comunes

Aquí están las consideraciones clave de diseño al adoptar Clean Rooms. Primero, los datos deben registrarse en el Glue Data Catalog en formato Parquet. El formato columnar de Parquet minimiza los objetivos de escaneo y reduce directamente los costos de análisis. El particionamiento (por ejemplo, por fecha o región) también es importante para reducir el alcance de escaneo de las consultas. Para el diseño de reglas de análisis, establecer el umbral mínimo de agregación demasiado alto hace que la granularidad del análisis sea demasiado gruesa para obtener insights, mientras que establecerlo demasiado bajo deja riesgo de ataques de diferencia (restar resultados de dos consultas para inferir individuos). Un rango práctico de 25-100 se recomienda, equilibrado según los objetivos del análisis. Las restricciones de columnas JOIN en las Configured Tables a menudo se pasan por alto, pero establecer columnas unibles demasiado ampliamente arriesga generar conjuntos de datos que permitan la identificación individual a través de cross-joins no intencionados. Solo las columnas mínimas necesarias deben ser unibles.

Comparación con enfoques tradicionales

Comparemos Clean Rooms con los enfoques tradicionales de colaboración de datos entre empresas. El enfoque más simple es el uso compartido de buckets S3 (cross-account), pero esto permite acceso completo a los datos sin procesar sin controles de privacidad, creando alto riesgo legal bajo GDPR. Las plataformas intermediarias de datos (Snowflake Data Clean Rooms, LiveRamp, InfoSum, etc.) ofrecen análisis similar con preservación de privacidad, pero a menudo requieren mover datos a una plataforma de terceros, incurriendo en costos de integración con pipelines de datos nativos de AWS. AWS Clean Rooms usa S3 y Glue Data Catalog directamente, siendo su fortaleza que se integra en arquitecturas de data lake AWS existentes con costo adicional mínimo. Combinado con el control de acceso a nivel de columna de Lake Formation, la gobernanza de datos interna y la colaboración inter-organizacional pueden gestionarse bajo un marco unificado. Sin embargo, Clean Rooms asume colaboración entre cuentas AWS, dificultando su uso cuando las empresas asociadas no están en AWS.

Precios de Clean Rooms

Los precios de Clean Rooms se basan en el volumen de procesamiento de consultas. Las consultas SQL se facturan según la cantidad de datos procesados, a aproximadamente $5.00 por TB. Cryptographic Computing genera cargos adicionales basados en el volumen de procesamiento de coincidencia cifrada. No hay cargos adicionales por crear colaboraciones o gestionar miembros. Restringir los tipos de consultas permitidas a través de reglas de análisis previene escaneos a gran escala no intencionados y ayuda a gestionar costos. Para análisis conjuntos con empresas asociadas, es importante acordar los arreglos de distribución de costos con anticipación.

Resumen

Clean Rooms es un servicio de preservación de privacidad que permite análisis conjuntos sin compartir datos. Controla las consultas permitidas a través de reglas de análisis y permite el análisis de datos cifrados mediante Cryptographic Computing. A medida que las regulaciones de privacidad continúan fortaleciéndose, se está convirtiendo en el nuevo estándar para la colaboración de datos entre empresas.