通过 Amazon DataZone 实现数据治理 - 数据的发现、共享与访问控制
介绍构建基于域的数据目录,通过订阅工作流实现数据的发现、共享和访问控制的方法。
关于 Athena、OpenSearch、Glue、数据湖构建等 AWS 数据分析与搜索服务的对比文章
介绍构建基于域的数据目录,通过订阅工作流实现数据的发现、共享和访问控制的方法。
介绍通过 Entity Resolution 对多个数据源进行记录匹配以及匹配工作流的设计方法。
构建日志分析平台,通过索引生命周期管理优化成本。介绍 OpenSearch Dashboards 和 Serverless 模式的应用。
介绍通过 EMR 构建 Spark 集群、EMR Serverless 的使用场景区分以及利用 Spot 实例进行成本优化的方法。
无需共享或复制数据即可在多企业间执行联合分析。介绍通过聚合规则防止个人识别以及通过 Cryptographic Computing 实现加密分析。
介绍通过 EMR Serverless 执行 Spark/Hive 作业、作业运行的设计以及成本优化方法。
通过 SPICE 引擎实现高速查询,利用嵌入 API 将 BI 功能集成到自有应用。介绍 Q 功能的自然语言查询与 Reader 的会话计费模式。
Amazon OpenSearch Serverless 是一项无需集群运维管理、通过自动扩展处理搜索和分析工作负载的全托管服务。从实务角度解析 OCU 计费模型、集合类型的选择标准以及索引设计的最佳实践。
通过 Data Streams 摄取实时数据,利用 Data Firehose 自动投递至 S3、Redshift、OpenSearch。解析分片设计与按需模式的选型,构建流式处理管道。
解说使用 AWS IoT TwinMaker 构建数字孪生。介绍 3D 场景创建、IoT 数据联动、Grafana 仪表板集成和工业设备可视化。
详解使用 AWS Entity Resolution 进行客户数据的名称匹配(实体解析)。介绍基于机器学习的匹配、基于规则的匹配、隐私保护以及与 Clean Rooms 的集成。
解析使用 AWS Clean Rooms 的隐私保护数据分析。介绍多组织间的数据协作、分析规则的访问控制及差分隐私的应用。
设计 Apache Kafka 托管集群,介绍与 MSK Serverless 的使用场景区分及 MSK Connect 的数据集成模式。
介绍使用 Amazon QuickSight 构建交互式 BI 仪表板,以及与 Athena 联动的无服务器数据分析基础。包括 SPICE 引擎的高速可视化和向全组织共享洞察的实践方法。
明确 Serverless 与 RA3 预置集群的选择标准,介绍通过数据共享和 Spectrum 实现数据湖联动以防止数据孤岛的方法。
解说使用 AWS Lake Formation 构建数据湖、实现访问控制与治理的方法。介绍针对基于 S3 的数据湖的列级与行级细粒度权限管理,以及与 Glue、Athena 的集成。
通过爬虫程序自动发现 Schema,通过 Glue 作业执行 ETL 处理。介绍 Data Catalog 的活用模式和通过 Glue Studio 进行可视化开发。
解析如何使用 AWS IoT Analytics 构建 IoT 设备数据的收集、预处理和分析管道。介绍通道、管道、数据存储、数据集四个组件与 QuickSight 联动。
解析如何使用 AWS IoT SiteWise 进行工业设备的数据收集、建模和可视化。介绍 OPC-UA 兼容网关、资产模型和 SiteWise Monitor 仪表板。
通过列级和行级细粒度访问控制及基于标签的管理建立数据湖治理。介绍与 Glue Data Catalog 的集成及跨账户访问。
在 EMR 集群上执行 Spark 作业和 Hive 查询,介绍与 EMR Serverless 的选择以及托管扩缩的成本优化。
解析 Redshift 分布样式与排序键的选择、工作负载管理 (WLM) 设计以及 AQUA 查询加速。
介绍以 S3 为存储基础、通过 Lake Formation 实现细粒度访问控制的数据湖设计模式。同时解说 ETL 管道与成本优化方案。
在 Apache Flink 全托管环境中通过 SQL 或 Java/Python 应用执行实时流处理。解析窗口聚合、模式检测及 Kinesis/MSK 集成的设计模式。
介绍使用 AWS IoT FleetWise 收集车辆遥测数据的方法,包括车辆建模、边缘数据过滤和向云端的高效数据传输。
通过 IAM 认证构建无需集群管理的 Kafka 环境,介绍与 EventBridge Pipes 集成简化事件流处理的方法。
具体介绍销售、IT、财务等各部门的应用场景,以及通过 Quick Flows 实现通知、审批、多阶段工作流的设计模式。
解说利用 Amazon OpenSearch Service 的数据搜索与分析设计方法,介绍通过全文搜索、日志分析和仪表板可视化构建分析基础设施的方法。
解析利用 Amazon Kinesis 的流数据处理设计方法,介绍通过 Data Streams、Data Firehose 和 Lambda 集成构建实时数据管道的方法。
介绍使用 Amazon Managed Blockchain 构建区块链网络,以及使用 Amazon QLDB 实现可验证账本数据库的方法。包括供应链管理和金融交易透明性保障等实际使用场景。
解说利用 AWS Data Exchange 获取和活用第三方数据的方法。介绍通过与 S3 集成构建数据管道,以及作为数据提供商发布数据的方法。
解析 Kinesis Data Streams 与 Data Firehose 组合的实时数据管道设计模式。介绍分片设计、缓冲、Lambda 转换以及向 S3、Redshift、OpenSearch 的投递。
解析通过 Amazon MSK (Managed Streaming for Apache Kafka) 构建全托管 Kafka 集群,以及与 Kinesis 的使用场景区分。介绍大规模实时数据流基础设施的设计模式。
解析使用 Amazon Braket 进行量子计算的实践方法。介绍量子电路模拟器、实机量子计算机访问、混合量子-经典算法实现以及与 Lambda 的集成模式。
解析利用 AWS Elemental MediaConvert 和 S3 构建视频转码流水线的方法。介绍多格式输出、HDR 支持以及高性价比的无服务器视频处理实践方法。
通过 Marketplace 采购第三方数据产品,构建自动配送到 S3 的管道。介绍自有数据的产品化和变现方法。