Detección automática de datos confidenciales con Amazon Macie - Escaneo de PII en buckets S3 y protección de datos

Se explica la detección automática de datos confidenciales (PII, información financiera, credenciales) en buckets S3 con Amazon Macie y las estrategias de protección de datos basadas en los resultados de detección.

約 8 分で読めます最終更新: 2026-05-06

Funciones de Macie y objetivos de detección

Macie es un servicio que escanea automáticamente los datos dentro de los buckets S3 y visualiza la ubicación de los datos confidenciales. Los objetivos de detección incluyen información de identificación personal (nombre, dirección, número de teléfono, correo electrónico, número de identificación nacional), información financiera (números de tarjetas de crédito, números de cuentas bancarias), credenciales (claves de acceso de AWS, claves privadas SSH, contraseñas), información médica (números de seguro), entre más de 100 tipos de datos. La detección utiliza tanto modelos de aprendizaje automático como coincidencia de patrones (expresiones regulares), logrando una detección de alta precisión que considera el contexto. Por ejemplo, en lugar de simplemente hacer coincidir una cadena de 12 dígitos, evalúa si existen palabras clave de proximidad como "número de tarjeta" o "fecha de vencimiento" en el texto circundante, manteniendo una baja tasa de falsos positivos.

Diseño de escaneo e identificadores de datos personalizados

Los trabajos de escaneo de Macie se ejecutan configurando los buckets objetivo, la frecuencia de escaneo (único o periódico) y la profundidad de muestreo. Dado que el escaneo completo de todos los objetos es costoso, un enfoque gradual es efectivo: primero escanear con muestreo (por ejemplo, 10%) y luego ejecutar un escaneo completo en los buckets donde se detectaron datos confidenciales. Los identificadores de datos personalizados permiten definir patrones de detección propios combinando expresiones regulares y palabras clave de proximidad. Por ejemplo, se pueden crear patrones para detectar IDs de empleados internos (EMP-[0-9]{6}) o para identificar documentos que contengan códigos de proyecto específicos. Al habilitar la función de descubrimiento automatizado de datos confidenciales (automated sensitive data discovery), Macie muestrea continua e inteligentemente los objetos dentro de los buckets, manteniendo actualizado el mapa de distribución de datos confidenciales incluyendo los objetos recién agregados.

Uso de resultados de detección y respuesta automática

Los resultados de detección de Macie se envían automáticamente a Security Hub, donde se pueden gestionar de forma integrada con los resultados de otros servicios de seguridad. Mediante la integración con EventBridge, se pueden construir flujos de trabajo de respuesta automática cuando se detectan datos confidenciales. Por ejemplo, si se detecta PII en un bucket con acceso público, se puede automatizar un flujo que bloquee el acceso público del bucket mediante una función Lambda y notifique al equipo de seguridad a través de SNS. El panel de Macie permite ver de un vistazo la postura de seguridad de los buckets S3 de toda la organización (tasa de cifrado, tasa de acceso público, número de buckets compartidos), priorizando la atención en los buckets de mayor riesgo. Los hallazgos se clasifican por Severity, con las credenciales en buckets públicos clasificadas automáticamente como Critical y la PII en buckets internos cifrados como Medium, facilitando la priorización de las acciones de respuesta. Para quienes deseen aprender sistemáticamente sobre Macie, los libros relacionados (Amazon) también son una buena referencia.

Mejora de la precisión de detección y manejo de falsos positivos

Los identificadores incorporados de Macie son altamente precisos, pero ciertos casos de uso requieren mitigar los falsos positivos. Configurar una allow list (lista de permitidos) excluye patrones de datos conocidos como seguros (números de tarjeta de crédito de prueba, números de seguridad social ficticios) de la detección. Las listas de permitidos se pueden definir como patrones de expresiones regulares o como archivos de texto almacenados en S3. Ajustar el parámetro maximumMatchDistance de los identificadores de datos personalizados controla la distancia a las palabras clave de proximidad, permitiendo el ajuste fino de la precisión de detección. En el proceso de revisión de hallazgos, incorporar un flujo de trabajo donde los humanos examinen los extractos de objetos (sensitive data occurrences) incluidos en los detalles de los hallazgos para determinar si los datos son verdaderamente confidenciales permite la mejora continua de la precisión de la respuesta automatizada. Para organizaciones con convenciones de nomenclatura o formatos de datos únicos, usar identificadores de datos personalizados para detección precisa en lugar de depender de los identificadores incorporados minimiza los falsos positivos.

Precios de Macie y notas sobre limitaciones

Los precios de Macie se componen de la evaluación de buckets (aproximadamente $0.10/mes por bucket) y la detección de datos confidenciales (aproximadamente $1.00 por GB para los primeros 50,000 GB). Dado que el escaneo completo de todos los buckets es costoso, un enfoque gradual es efectivo: primero verificar el estado de cifrado y acceso público con la evaluación de buckets, y luego ejecutar trabajos de detección de datos confidenciales solo en los buckets de alto riesgo. Configurar la profundidad de muestreo al 10-20% para el escaneo inicial y luego reducir los objetivos del escaneo completo basándose en los resultados permite optimizar los costos. Existen limitaciones de tamaño de objeto para el escaneo: la inspección cubre solo los primeros bytes especificados (varios MB por defecto) de un solo objeto, por lo que los datos confidenciales cerca del final de archivos de log grandes o volcados de DB pueden no detectarse. En tales casos, es necesario diseñar el almacenamiento para dividir los objetos o configurar apropiadamente el classificationScopeId. Se recomienda confirmar los costos reales y la calidad de los hallazgos con la prueba gratuita de 30 días antes de la implementación en producción.

Resumen

Macie es un servicio que visualiza automáticamente la ubicación de los datos confidenciales almacenados en S3 e identifica los riesgos de protección de datos. Es especialmente efectivo cuando se necesita comprender dónde existen los datos personales dentro de la organización para cumplir con el GDPR o las leyes de protección de datos personales. Combinando la supresión de falsos positivos con allow lists, el mantenimiento del mapa de distribución en tiempo real con descubrimiento automatizado y la automatización desde detección hasta respuesta con integración de EventBridge, se puede construir una postura de descubrimiento de datos continuo.

Detección de permisos excesivos con IAM Access Analyzer - Análisis de acceso externo y permisos no utilizadosDetecta permisos no utilizados en roles IAM mediante análisis basado en CloudTrail y genera automáticamente políticas de mínimo privilegio. Cubre la detección de acceso externo y la integración de verificaciones de políticas personalizadas en pipelines CI/CD.Automatización de la gestión de certificados SSL/TLS con AWS Certificate Manager - Desde la emisión hasta la rotaciónExplicamos la emisión gratuita de certificados públicos con ACM, la validación DNS, la renovación automática y el despliegue en ALB y CloudFront.Obtención de informes de cumplimiento con AWS Artifact - Respuesta a auditorías y gestión de contratosPresenta cómo obtener informes de auditoría SOC, PCI DSS e ISO bajo demanda, y aplicar BAA y GDPR DPA de forma masiva a toda la organización con Organizations.Automatización de auditorías - Recopilación continua de evidencias de cumplimiento con AWS Audit ManagerExplica la recopilación automática de evidencias de auditoría con AWS Audit Manager. Presenta la evaluación automática basada en frameworks (SOC 2, PCI DSS, GDPR, etc.), gestión centralizada de evidencias y generación de informes de auditoría.La estructura oculta de los 12 dígitos del ID de cuenta de AWS - Por qué son 12 dígitos y qué se puede inferirUna exploración curiosa de por qué los ID de cuenta de AWS son números de 12 dígitos, la intención de diseño incorporada en la estructura ARN, y las consideraciones de seguridad sobre lo que se puede inferir a partir de un ID de cuenta.Por qué el usuario root de una cuenta AWS es peligroso - Filosofía de diseño de separación de privilegios y práctica de selladoExplicamos por qué el usuario root de AWS tiene privilegios que IAM no puede restringir, la lista de operaciones que solo el usuario root puede realizar, cómo configurar MFA y la estrategia de sellado mediante la gestión de acceso root de Organizations.Gestión de certificados y HTTPS - Operaciones automatizadas de certificados TLS con AWS Certificate ManagerAprenda sobre la emisión de certificados TLS/SSL, renovación automática y despliegue usando AWS Certificate Manager (ACM). Cubre la integración con CloudFront, ALB y API Gateway, validación DNS y uso de Private CA.Gestión dedicada de claves con AWS CloudHSM - Cifrado compatible con FIPS 140-2 Level 3Logre gestión de claves compatible con FIPS 140-2 Level 3 con instancias HSM dedicadas. Aprenda cuándo elegir CloudHSM sobre KMS y cómo integrar ambos mediante almacenes de claves personalizados de KMS.

Funciones de Macie y objetivos de detección

Diseño de escaneo e identificadores de datos personalizados

Uso de resultados de detección y respuesta automática

Mejora de la precisión de detección y manejo de falsos positivos

Precios de Macie y notas sobre limitaciones

Resumen

Servicios relacionados

Artículos relacionados

Más sobre este tema

Artículos y servicios similares