Amazon Redshift 热门2012年〜
PB 级数据仓库服务,实现高速分析查询
它能做什么
Amazon Redshift 是一项全托管的云数据仓库服务,可以对 PB 级数据执行高速 SQL 分析查询。采用列式存储和大规模并行处理(MPP)架构,实现比传统数据仓库快数倍的查询性能。Redshift Serverless 无需管理集群即可按需执行查询。支持与 S3 数据湖的联合查询(Redshift Spectrum)。
使用场景
用于企业数据仓库的构建、大规模数据的 SQL 分析、BI 工具的数据源、数据湖与数据仓库的统一查询、历史数据的趋势分析。
日常类比
可以比作超大型图书馆的高速检索系统。即使面对数百万册藏书(PB 级数据),也能在几秒内找到答案。书籍按主题(列)整理,使特定主题的搜索极其高效。
什么是 Redshift
Amazon Redshift 是 AWS 的数据仓库服务。与处理事务的 RDS 不同,Redshift 专为分析查询优化。列式存储只读取查询所需的列,大幅减少 I/O。数据自动压缩,节省存储成本。Redshift Serverless 按查询的计算量付费,无需预先配置集群。
架构与性能
Redshift 采用 Leader 节点和 Compute 节点的 MPP 架构。Leader 节点解析查询并分配给 Compute 节点并行执行。RA3 实例将计算和存储分离,可以独立扩展。Redshift Spectrum 可以直接查询 S3 上的数据,无需加载到 Redshift。Materialized View 缓存频繁查询的结果以加速响应。 如需深入了解架构与性能优化,可参考专业书籍(Amazon)。
开始使用
使用 Redshift Serverless 可以最快开始。在控制台创建命名空间和工作组后,即可通过查询编辑器执行 SQL。从 S3 使用 COPY 命令加载数据,或使用 Redshift Spectrum 直接查询 S3 数据。
注意事项
- RA3 实例将计算和存储分离,可以独立扩展
- Redshift Serverless 按查询的计算量付费,适合间歇性分析工作负载