使用 Amazon Redshift 构建云数据仓库 - Serverless 与 RA3 的选择

明确 Serverless 与 RA3 预置集群的选择标准，介绍通过数据共享和 Spectrum 实现数据湖联动以防止数据孤岛的方法。

約 1 分で読めます最終更新: 2025-12-31

Redshift 架构概述

Redshift 是采用列式存储和大规模并行处理 (MPP) 架构的云数据仓库。列式存储使分析查询仅读取所需列，与行式 RDBMS 相比大幅减少 I/O。Leader 节点负责查询解析和执行计划生成，Compute 节点执行数据并行处理。RA3 实例实现了计算与存储分离，存储层使用 S3 托管存储，可独立扩展计算和存储。

Serverless 与预置集群的选择

Redshift Serverless 以 RPU（Redshift Processing Unit）为单位自动扩展容量，无查询执行时不产生费用。适合 BI 仪表板定期查询、临时分析和开发测试环境等间歇性工作负载。预置集群（RA3）适合常时运行的工作负载。24 小时持续运行 ETL 和大量并发查询时，预置集群的固定费用比 Serverless 的按量计费更经济。

数据共享与 Spectrum 数据湖联动

数据共享是在 Redshift 集群间实时共享实时数据的功能。生产者集群创建数据共享，消费者集群引用它。不发生数据复制，消费者始终引用生产者的最新数据。适用于各部门运行独立集群同时共享公共主数据的场景。Redshift Spectrum 可直接查询 S3 上的数据，无需将数据加载到 Redshift。通过 Glue Data Catalog 管理 S3 数据的表定义，Redshift 的 SQL 可透明地联合查询 Redshift 内部表和 S3 外部表。关于数据仓库设计的详细解析，可参考Amazon 相关书籍。

Redshift 定价

Redshift Serverless 按 RPU 使用量计费，基础 RPU 从 8 起设置，每 RPU 小时约 0.375 美元。无查询执行时不产生费用。预置集群 RA3.xlplus 每节点约 1.086 美元/小时（月费约 782 美元），预留实例可享最高 75% 折扣。Serverless 适合间歇性工作负载，预置集群适合常时运行工作负载。数据共享的消费者集群仅对自身计算资源付费，不对生产者数据产生额外存储费用。

总结

Redshift 是可高速执行 PB 级数据分析的云数据仓库。从 Serverless 小规模起步，随工作负载增长迁移到预置集群的渐进方式非常有效。利用数据共享和 Spectrum 防止数据孤岛，实现与数据湖的统一分析。

Amazon Quick 实践应用 - 部门级用例与工作流自动化设计模式具体介绍销售、IT、财务等各部门的应用场景，以及通过 Quick Flows 实现通知、审批、多阶段工作流的设计模式。BI 仪表板可视化 - 使用 Amazon QuickSight 构建数据驱动的决策基础介绍使用 Amazon QuickSight 构建交互式 BI 仪表板，以及与 Athena 联动的无服务器数据分析基础。包括 SPICE 引擎的高速可视化和向全组织共享洞察的实践方法。构建区块链网络 - 使用 Amazon Managed Blockchain 与 QLDB 的分布式账本应用介绍使用 Amazon Managed Blockchain 构建区块链网络，以及使用 Amazon QLDB 实现可验证账本数据库的方法。包括供应链管理和金融交易透明性保障等实际使用场景。使用 AWS Clean Rooms 实现隐私保护型数据协作无需共享或复制数据即可在多企业间执行联合分析。介绍通过聚合规则防止个人识别以及通过 Cryptographic Computing 实现加密分析。客户 ID 统合 - 使用 AWS Entity Resolution 对分散的客户数据进行名称匹配详解使用 AWS Entity Resolution 进行客户数据的名称匹配（实体解析）。介绍基于机器学习的匹配、基于规则的匹配、隐私保护以及与 Clean Rooms 的集成。使用 AWS Data Exchange 活用第三方数据 - 数据采购与订阅管理通过 Marketplace 采购第三方数据产品，构建自动配送到 S3 的管道。介绍自有数据的产品化和变现方法。使用 Amazon S3 和 Lake Formation 构建数据湖 - 设计模式与治理介绍以 S3 为存储基础、通过 Lake Formation 实现细粒度访问控制的数据湖设计模式。同时解说 ETL 管道与成本优化方案。数据湖治理 - 通过 AWS Lake Formation 实现集中式访问控制解说使用 AWS Lake Formation 构建数据湖、实现访问控制与治理的方法。介绍针对基于 S3 的数据湖的列级与行级细粒度权限管理，以及与 Glue、Athena 的集成。

Redshift 架构概述

Serverless 与预置集群的选择

数据共享与 Spectrum 数据湖联动

Redshift 定价

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务