以下是关于数据仓库(数仓)的全面介绍:
1. 数仓定义
数据仓库(Data Warehouse,简称DW或DWH)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策[2][4][7]。它通过整合来自不同业务系统的数据(如金融业的贷款、CRM、存款等业务数据),为企业提供统一的分析平台[1][6]。
2. 核心特点
- 面向主题:数据按业务主题(如客户、销售)组织,而非按业务系统划分[4][10]。
- 集成性:通过ETL(抽取、转换、加载)将分散的异构数据统一格式和标准[2][6]。
- 非易失性:数据一旦入库通常不可修改,保留历史记录用于分析[1][4]。
- 时变性:定期更新数据以反映业务变化,支持时间序列分析[4][7]。
3. 与数据库的区别
| 对比维度 | 数据库(OLTP) | 数据仓库(OLAP) |
|----------------|-------------------------|---------------------------|
| 目的 | 支持日常事务处理(增删改查) | 支持分析决策(查询、报表) |
| 数据组织 | 按应用需求设计 | 按主题域设计 |
| 数据量 | 较小,关注单条记录 | 海量,关注聚合分析 |
| 修改频率 | 高频更新 | 低频追加,历史数据保留 |
4. 数仓架构与关键技术
- 分层设计:常见分层包括ODS(原始数据)、DWD(清洗层)、DWS/DWT(聚合层)、ADS(应用层)[5][8]。
- 数据建模:采用星型模型(简单高效)、雪花模型(减少冗余)或星座模型(复杂场景)[3][9]。
- ETL流程:通过Flume(日志采集)、Sqoop(数据库同步)等工具实现数据集成[5][7]。
5. 应用场景
- 决策支持:生成企业级报表(如销售趋势、用户留存率)[5][7]。
- 商业智能:通过OLAP工具进行多维分析(如地区-产品-时间维度)[6][9]。
- 数据挖掘:发现潜在规律(如沃尔玛“啤酒与尿布”关联分析)[9]。
6. 发展趋势
- 实时数仓:支持流式数据处理,缩短分析延迟[2][7]。
- 云原生数仓:结合大数据技术(如Hive、ClickHouse)提升扩展性[9][10]。
参考资料
[1] 通俗易懂:什么是数仓_大数据的奇妙冒险的技术博客-51CTO博客
[2] 【数仓】基本概念、知识普及、核心技术-CSDN博客
[3] 数据仓库(数仓)介绍-CSDN博客
[4] 数仓(一)简介数仓,OLTP和OLAP-CSDN博客
[5] 数仓概述_数仓功能概述-CSDN博客
[6] 数仓概念_数仓复用-CSDN博客
[7] 数仓是什么,了解数据仓库的定义和作用-观远数据BI平台
[8] 数仓的概念及架构_数据仓库技术架构图-CSDN博客
[9] 数据仓库入门教程- 掘金
[10] 数仓基本概述_数仓概述-CSDN博客