Amazon Redshift 性能调优 - 分布键、排序键与 WLM 优化

解析 Redshift 分布样式与排序键的选择、工作负载管理 (WLM) 设计以及 AQUA 查询加速。

約 1 分で読めます最終更新: 2025-11-18

分布样式的选择

Redshift 将数据分布存储在 Compute 节点的切片中。分布样式的选择是直接影响查询性能的最重要设计决策。KEY 分布基于指定列的值分布数据，相同键值的行放置在同一切片。将 JOIN 中频繁使用的列指定为 KEY，可在 JOIN 时免去数据重分布（网络传输），获得显著性能提升。EVEN 分布将数据均匀分配到所有切片，适合没有明显 JOIN 键的表。ALL 分布将整个表复制到每个节点，适合小型维度表。

排序键与 Zone Map

设置排序键后，数据按该列值的顺序存储在磁盘上。Redshift 为每个块记录最小值和最大值作为 Zone Map，WHERE 子句的过滤条件可跳过 Zone Map 范围外的块。将日期列设为排序键并应用 WHERE created_at > '2026-01-01' 等过滤时，仅扫描相关时间段的块，大幅减少 I/O。复合排序键按列顺序排序，适合固定的查询模式。交错排序键对所有列赋予同等权重，适合多种查询模式。

工作负载管理与 AQUA

自动 WLM 基于查询复杂度和资源需求自动优化队列分配和内存分配。解决短时仪表板查询被长时 ETL 查询阻塞的问题，为高优先级查询分配适当资源。手动 WLM 可定义最多 8 个队列，基于用户组或查询组路由查询。AQUA 是 RA3 实例可用的硬件加速查询引擎，将扫描和过滤处理下推到存储层执行。对于大量数据扫描的查询，AQUA 可将性能提升最高 10 倍。AQUA 自动应用于符合条件的查询，无需修改 SQL。关于数据仓库优化的详细解析，可参考Amazon 相关书籍。

性能调优的成本影响

适当的性能调优直接带来成本降低。优化分布键减少节点间数据重分布（Redistribution）可缩短查询执行时间，减少 Serverless 的 RPU 消耗。设置排序键提高 Zone Map 跳过率可减少扫描数据量，降低 I/O 成本。AQUA（Advanced Query Accelerator）将扫描处理下推到存储层，减少 Compute 节点的 CPU 使用率，使同一集群可处理更多并发查询。

总结

Redshift 性能调优的基础是适当设置分布样式和排序键。通过 SVL_QUERY_SUMMARY 识别慢查询，通过调整分布键或添加排序键进行改善。利用自动 WLM 管理工作负载优先级，通过 AQUA 提升扫描性能，优化大规模数据分析的响应时间。

Amazon Quick 实践应用 - 部门级用例与工作流自动化设计模式具体介绍销售、IT、财务等各部门的应用场景，以及通过 Quick Flows 实现通知、审批、多阶段工作流的设计模式。BI 仪表板可视化 - 使用 Amazon QuickSight 构建数据驱动的决策基础介绍使用 Amazon QuickSight 构建交互式 BI 仪表板，以及与 Athena 联动的无服务器数据分析基础。包括 SPICE 引擎的高速可视化和向全组织共享洞察的实践方法。构建区块链网络 - 使用 Amazon Managed Blockchain 与 QLDB 的分布式账本应用介绍使用 Amazon Managed Blockchain 构建区块链网络，以及使用 Amazon QLDB 实现可验证账本数据库的方法。包括供应链管理和金融交易透明性保障等实际使用场景。使用 AWS Clean Rooms 实现隐私保护型数据协作无需共享或复制数据即可在多企业间执行联合分析。介绍通过聚合规则防止个人识别以及通过 Cryptographic Computing 实现加密分析。客户 ID 统合 - 使用 AWS Entity Resolution 对分散的客户数据进行名称匹配详解使用 AWS Entity Resolution 进行客户数据的名称匹配（实体解析）。介绍基于机器学习的匹配、基于规则的匹配、隐私保护以及与 Clean Rooms 的集成。使用 AWS Data Exchange 活用第三方数据 - 数据采购与订阅管理通过 Marketplace 采购第三方数据产品，构建自动配送到 S3 的管道。介绍自有数据的产品化和变现方法。使用 Amazon S3 和 Lake Formation 构建数据湖 - 设计模式与治理介绍以 S3 为存储基础、通过 Lake Formation 实现细粒度访问控制的数据湖设计模式。同时解说 ETL 管道与成本优化方案。数据湖治理 - 通过 AWS Lake Formation 实现集中式访问控制解说使用 AWS Lake Formation 构建数据湖、实现访问控制与治理的方法。介绍针对基于 S3 的数据湖的列级与行级细粒度权限管理，以及与 Glue、Athena 的集成。

分布样式的选择

排序键与 Zone Map

工作负载管理与 AQUA

性能调优的成本影响

总结

相关服务

相关文章

本主题的更多内容

相似的文章与服务