分析与搜索

关于 Athena、OpenSearch、Glue、数据湖构建等 AWS 数据分析与搜索服务的对比文章

通过 Amazon DataZone 实现数据治理 - 数据的发现、共享与访问控制

介绍构建基于域的数据目录，通过订阅工作流实现数据的发现、共享和访问控制的方法。

最后更新： 2026-05-27

通过 AWS Entity Resolution 实现记录匹配 - 客户数据的合并与整合

介绍通过 Entity Resolution 对多个数据源进行记录匹配以及匹配工作流的设计方法。

最后更新： 2026-05-15

使用 Amazon OpenSearch Service 构建日志分析平台 - 索引设计与仪表板构建

构建日志分析平台，通过索引生命周期管理优化成本。介绍 OpenSearch Dashboards 和 Serverless 模式的应用。

最后更新： 2026-05-12

在 Amazon EMR 上运行 Apache Spark - 大数据处理的集群设计与成本优化

介绍通过 EMR 构建 Spark 集群、EMR Serverless 的使用场景区分以及利用 Spot 实例进行成本优化的方法。

最后更新： 2026-05-08

使用 AWS Clean Rooms 实现隐私保护型数据协作

无需共享或复制数据即可在多企业间执行联合分析。介绍通过聚合规则防止个人识别以及通过 Cryptographic Computing 实现加密分析。

最后更新： 2026-05-05

在 Amazon EMR Serverless 上以无服务器方式运行 Spark 作业 - 无需集群管理的大数据处理

介绍通过 EMR Serverless 执行 Spark/Hive 作业、作业运行的设计以及成本优化方法。

最后更新： 2026-05-01

使用 Amazon QuickSight 构建 BI 仪表板 - 无服务器分析与嵌入式可视化

通过 SPICE 引擎实现高速查询，利用嵌入 API 将 BI 功能集成到自有应用。介绍 Q 功能的自然语言查询与 Reader 的会话计费模式。

最后更新： 2026-04-29

Amazon OpenSearch Serverless 实践指南 - OCU 设计与按集合类型的优化策略

Amazon OpenSearch Serverless 是一项无需集群运维管理、通过自动扩展处理搜索和分析工作负载的全托管服务。从实务角度解析 OCU 计费模型、集合类型的选择标准以及索引设计的最佳实践。

最后更新： 2026-04-24

使用 Amazon Kinesis 构建实时数据管道 - Data Streams 与 Data Firehose 的选型

通过 Data Streams 摄取实时数据，利用 Data Firehose 自动投递至 S3、Redshift、OpenSearch。解析分片设计与按需模式的选型，构建流式处理管道。

最后更新： 2026-03-10

数字孪生 - 通过 AWS IoT TwinMaker 构建物理空间的 3D 数字副本

解说使用 AWS IoT TwinMaker 构建数字孪生。介绍 3D 场景创建、IoT 数据联动、Grafana 仪表板集成和工业设备可视化。

最后更新： 2026-02-21

客户 ID 统合 - 使用 AWS Entity Resolution 对分散的客户数据进行名称匹配

详解使用 AWS Entity Resolution 进行客户数据的名称匹配（实体解析）。介绍基于机器学习的匹配、基于规则的匹配、隐私保护以及与 Clean Rooms 的集成。

最后更新： 2026-02-10

隐私保护数据分析 - 使用 AWS Clean Rooms 安全地进行数据协作

解析使用 AWS Clean Rooms 的隐私保护数据分析。介绍多组织间的数据协作、分析规则的访问控制及差分隐私的应用。

最后更新： 2026-02-02

使用 Amazon MSK 构建 Apache Kafka 流处理基础设施 - 集群设计与运维

设计 Apache Kafka 托管集群，介绍与 MSK Serverless 的使用场景区分及 MSK Connect 的数据集成模式。

最后更新： 2026-02-01

BI 仪表板可视化 - 使用 Amazon QuickSight 构建数据驱动的决策基础

介绍使用 Amazon QuickSight 构建交互式 BI 仪表板，以及与 Athena 联动的无服务器数据分析基础。包括 SPICE 引擎的高速可视化和向全组织共享洞察的实践方法。

最后更新： 2026-01-13

使用 Amazon Redshift 构建云数据仓库 - Serverless 与 RA3 的选择

明确 Serverless 与 RA3 预置集群的选择标准，介绍通过数据共享和 Spectrum 实现数据湖联动以防止数据孤岛的方法。

最后更新： 2025-12-31

数据湖治理 - 通过 AWS Lake Formation 实现集中式访问控制

解说使用 AWS Lake Formation 构建数据湖、实现访问控制与治理的方法。介绍针对基于 S3 的数据湖的列级与行级细粒度权限管理，以及与 Glue、Athena 的集成。

最后更新： 2025-12-24

通过 AWS Glue 构建 ETL 管道 - 爬虫程序与作业的设计

通过爬虫程序自动发现 Schema，通过 Glue 作业执行 ETL 处理。介绍 Data Catalog 的活用模式和通过 Glue Studio 进行可视化开发。

最后更新： 2025-12-20

IoT 数据分析 - 通过 AWS IoT Analytics 结构化和分析设备数据

解析如何使用 AWS IoT Analytics 构建 IoT 设备数据的收集、预处理和分析管道。介绍通道、管道、数据存储、数据集四个组件与 QuickSight 联动。

最后更新： 2025-12-13

工业 IoT 监控 - 通过 AWS IoT SiteWise 收集和可视化设备数据

解析如何使用 AWS IoT SiteWise 进行工业设备的数据收集、建模和可视化。介绍 OPC-UA 兼容网关、资产模型和 SiteWise Monitor 仪表板。

最后更新： 2025-12-09

使用 AWS Lake Formation 构建数据湖 - 细粒度访问控制与数据目录

通过列级和行级细粒度访问控制及基于标签的管理建立数据湖治理。介绍与 Glue Data Catalog 的集成及跨账户访问。

最后更新： 2025-12-02

Amazon EMR 大数据处理 - Spark 与 Hive 的执行环境

在 EMR 集群上执行 Spark 作业和 Hive 查询，介绍与 EMR Serverless 的选择以及托管扩缩的成本优化。

最后更新： 2025-11-25

Amazon Redshift 性能调优 - 分布键、排序键与 WLM 优化

解析 Redshift 分布样式与排序键的选择、工作负载管理 (WLM) 设计以及 AQUA 查询加速。

最后更新： 2025-11-18

使用 Amazon S3 和 Lake Formation 构建数据湖 - 设计模式与治理

介绍以 S3 为存储基础、通过 Lake Formation 实现细粒度访问控制的数据湖设计模式。同时解说 ETL 管道与成本优化方案。

最后更新： 2025-11-14

使用 Amazon Managed Service for Apache Flink 进行实时流处理 - 有状态处理与窗口聚合

在 Apache Flink 全托管环境中通过 SQL 或 Java/Python 应用执行实时流处理。解析窗口聚合、模式检测及 Kinesis/MSK 集成的设计模式。

最后更新： 2025-11-12

车队数据管理 - 通过 AWS IoT FleetWise 高效收集车辆遥测数据

介绍使用 AWS IoT FleetWise 收集车辆遥测数据的方法，包括车辆建模、边缘数据过滤和向云端的高效数据传输。

最后更新： 2025-11-08

使用 Amazon MSK Serverless 开始事件流处理 - 零运维的 Kafka 环境构建

通过 IAM 认证构建无需集群管理的 Kafka 环境，介绍与 EventBridge Pipes 集成简化事件流处理的方法。

最后更新： 2025-11-02

Amazon Quick 实践应用 - 部门级用例与工作流自动化设计模式

具体介绍销售、IT、财务等各部门的应用场景，以及通过 Quick Flows 实现通知、审批、多阶段工作流的设计模式。

最后更新： 2025-10-29

数据搜索与分析实践 - 通过 OpenSearch 构建全文搜索与可视化基础设施

解说利用 Amazon OpenSearch Service 的数据搜索与分析设计方法，介绍通过全文搜索、日志分析和仪表板可视化构建分析基础设施的方法。

最后更新： 2025-10-15

流数据处理设计 - 使用 Kinesis 构建实时数据管道

解析利用 Amazon Kinesis 的流数据处理设计方法，介绍通过 Data Streams、Data Firehose 和 Lambda 集成构建实时数据管道的方法。

最后更新： 2025-10-13

构建区块链网络 - 使用 Amazon Managed Blockchain 与 QLDB 的分布式账本应用

介绍使用 Amazon Managed Blockchain 构建区块链网络，以及使用 Amazon QLDB 实现可验证账本数据库的方法。包括供应链管理和金融交易透明性保障等实际使用场景。

最后更新： 2025-09-15

数据市场活用 - 通过 AWS Data Exchange 实现第三方数据的高效获取与利用

解说利用 AWS Data Exchange 获取和活用第三方数据的方法。介绍通过与 S3 集成构建数据管道，以及作为数据提供商发布数据的方法。

最后更新： 2025-09-03

实时数据流处理 - 使用 Amazon Kinesis 实现即时数据处理

解析 Kinesis Data Streams 与 Data Firehose 组合的实时数据管道设计模式。介绍分片设计、缓冲、Lambda 转换以及向 S3、Redshift、OpenSearch 的投递。

最后更新： 2025-08-29

托管 Kafka 流处理 - 使用 Amazon MSK 实现大规模实时数据管道

解析通过 Amazon MSK (Managed Streaming for Apache Kafka) 构建全托管 Kafka 集群，以及与 Kinesis 的使用场景区分。介绍大规模实时数据流基础设施的设计模式。

最后更新： 2025-08-28

量子计算服务 - 使用 Amazon Braket 开始量子算法开发

解析使用 Amazon Braket 进行量子计算的实践方法。介绍量子电路模拟器、实机量子计算机访问、混合量子-经典算法实现以及与 Lambda 的集成模式。

最后更新： 2025-08-20

视频转码 - 使用 AWS Elemental MediaConvert 构建可扩展的视频转换基础设施

解析利用 AWS Elemental MediaConvert 和 S3 构建视频转码流水线的方法。介绍多格式输出、HDR 支持以及高性价比的无服务器视频处理实践方法。

最后更新： 2025-08-15

使用 AWS Data Exchange 活用第三方数据 - 数据采购与订阅管理

通过 Marketplace 采购第三方数据产品，构建自动配送到 S3 的管道。介绍自有数据的产品化和变现方法。

最后更新： 2025-08-01