简介:数据仓库
虽然经常被忽视, 数据仓库使公司能够揭示隐藏在其庞大数据宝库中的有价值的见解. 在本文中, 领域专家Josip Saban分享了所有现代管理人员必备的基本原则和应用.
虽然经常被忽视, 数据仓库使公司能够揭示隐藏在其庞大数据宝库中的有价值的见解. 在本文中, 领域专家Josip Saban分享了所有现代管理人员必备的基本原则和应用.
拥有两个硕士学位,曾在斯洛文尼亚最大的企业工作, Josip是微软商业/数据库技术领域的资深人士.
企业和消费者产生的数据比以往任何时候都多. 数字设备和产品的激增正在推动数字宇宙的指数级扩张. 虽然理论上是一种资产, 这些数据的规模提出了一个挑战:公司如何实际地组织他们的信息,以揭示可操作的见解?
![](http://assets.toptal.io/images?url=http%3A%2F%2Fbs-uploads.toptal.io%2Fblackfish-uploads%2Fuploaded_file%2Ffile%2F5383%2Fimage-1539230071267-ee1e4a73427d063ac82e9fbc68112d25.png)
而数据挖掘和商业智能则提供了对这些见解的有价值的提取和表示, 的 数据仓库 (DWH)是对大量底层数据的预备汇总和重组, 它通常驻留在多个位置. 了解DWH在更广泛的数据科学生态系统中的作用, 数据挖掘和商业智能对现代管理者来说是必不可少的.
什么是数据仓库?
DWH是数字信息的集中存储库, 从各种不同的来源聚合的, 组织结构为报告优化. 最重要的是, DWH为整个企业提供可操作的信息, 使员工能够执行量身定制的分析并做出更好的决策.
基本数据仓库概念
关系与维度模型
了解数据仓库的功能, 理解关系模型和维度模型之间的区别非常重要. 虽然听起来很专业,但很容易区分.
从实际使用的角度来看, 关系数据库和维度数据库在一个关键标准上有所不同:信息流. 而关系数据库则针对数据输入进行了优化, 维度数据库是为输出而构建的, 特别是以报告和分析的形式被称为 商业智能.
关系模型围绕单个信息点组织信息, 例如客户名称. 在这样一个模型中, 客户名称存在于一个位置, 与所有相关的信息-如联系方式和交易日期-列在相关的或相关的表.
![](http://assets.toptal.io/images?url=http%3A%2F%2Fbs-uploads.toptal.io%2Fblackfish-uploads%2Fuploaded_file%2Ffile%2F5394%2Fimage-1539262956049-c8eb1b586fc19277c80c880c607facfd.png)
相比之下, 维度数据库本质上是“解包”关系数据库, 允许用户以满足其报告需求所需的必要排列方式轻松地“切片”数据. 例如, 在上面的关系数据库条目中, 客户联系方式的详细信息将被分解成离散的字段, 比如电话号码, 街道地址, 城市, 州和邮政编码.
维度数据库本质上是“解包”关系数据库, 允许用户轻松地“切片”数据
关系数据库和维度数据库之间的区别似乎很抽象. 然而, 对于那些负责提供日益复杂的分析和报告的人, 了解这种区别可以为与维护这些资源的技术团队合作提供有价值的基础理解.
数据仓库-“It 's On”
Bill Inmon详细报道, 数据仓库的创建者之一, 一些特定的特征支配着数据仓库的设计. 根据Inmon的说法, 数据仓库是面向主题的, 非易失性, 集成, 支持管理层决策的时变数据收集.
这太拗口了, 但一旦分解成几个部分, 这个定义清晰地描绘了DWH的基本结构. 为了使这些标准易于记忆, 我们根据“It 's On”这个变位词重新组织了Inmon的标准
集成: 数据格式必须一致. 数据字段通常来自不同的来源,必须具有一致的命名约定.
时间变体: DWH揭示的趋势取决于时间的变化. 随着时间的推移记录数据点是揭示数据之间关系的基础.
主题: DWH支持以主题为中心的分析和报告. 例如, 公司可能想要评估一段时间内产品的销售情况, 然后深入研究区域或客户细分的特定趋势.
非易失性: 一旦数据进入仓库,它就不会改变.
数据仓库不同于事务性数据库
DWH和事务性数据库系统执行的功能完全不同, 为不同的用户服务. 而DWH则针对报告和分析进行了优化, 事务系统——通常称为联机事务处理(OnLine transaction Processing, OLTP)——针对可用性和处理速度进行了优化.
OLTP用户通常是前端员工,他们通常一次访问几条记录. DWH的用户通常是分析师和经理, 谁的报告可能同时调用数百万条记录.
事务系统和DWH在数据粒度和持久性方面也有所不同. 在OLTP中, 数据包含当前值, 这些细节和高度变化(每隔几秒, 成千上万的事务改变了这些记录的值). 相比之下,DWH包含重新构造的数据,一旦加载就不能更改.
![](http://assets.toptal.io/images?url=http%3A%2F%2Fbs-uploads.toptal.io%2Fblackfish-uploads%2Fuploaded_file%2Ffile%2F5385%2Fimage-1539230392941-870c6970fb1c05750f0a84bebd3c3062.png)
消费者贷款流程简洁地说明了这些系统之间的主要区别. 当客户获得汽车贷款时, 例如, 事务数据库捕获诸如汽车类型之类的详细信息, color, 购买年份, 购买价格, 以及买家个人信息. 一旦转换成DWH模型, 事务信息(围绕单个客户事务)被分解为组件部分. 这些部分依次与来自其他事务的可比较部分汇集在一起.
查询DWH, 贷款人的员工可能会访问由汇总的客户数据组成的报告. 例如, 努力优化广告支出, 营销经理可能会寻找具有最高贷款批准率的特定类型或价格范围的汽车, 或者贷款申请人一段时间内的平均年龄和收入水平. 这些信息可能会引导广告支出转向更相关的渠道,提供更有针对性的信息.
数据仓库vs. 数据集市和数据湖
DWH可能伴随着相关的数据库——数据集市和数据湖——它们的描述性名称暗示了不同的功能. DWH的子集, 数据集市服务于一组特定的用户, 例如,一个部门或特定的业务单位. 而DWH拥有与多个部门相关的多个主题-例如销售, 客户, 产品, 库存, 供应商——数据集市通常为一个部门提供一个主题区域, 比如销售或财务.
有两种类型的数据集市——依赖的和独立的——每一种都有独特的好处. 依赖数据集市从DWH中提取数据,具有一致性的优点. 因为所有数据在DWH内都是集中和一致的, 得到的数据集市也是一致的. 虽然更健壮,但依赖的数据集市需要DWH,因此开发成本更高.
独立的数据市场, 另一方面, 直接从相同的源数据库中提取数据, 就像一个迷你DWH. 尽管开发速度更快,成本更低, 独立的数据集市风险更大, 因为数据定义可能在独立开发的数据市场中变得不一致. 然而,如果有纪律地开发,独立的数据集市最终可以组装成DWH.
数据湖通常配置在廉价且可扩展的商用硬件集群上. 这允许将数据倾倒在湖中,而不必担心存储容量. 而DWH通常仅限于文本和数字数据, 这个湖还可以容纳更多种类的生物, 包括社交媒体, 传感器数据, 和图片.
数据仓库和数据挖掘
DWH使数据挖掘成为可能,使公司具备预测未来的能力. 数据挖掘的主要目标是揭示大型数据集中的模式. 这样的模式, 反过来, 揭示不同类别的数据及其底层业务功能之间的关系.
![](http://assets.toptal.io/images?url=http%3A%2F%2Fbs-uploads.toptal.io%2Fblackfish-uploads%2Fuploaded_file%2Ffile%2F5386%2Fimage-1539230439897-08e746d1efb0addaae44b16a9807c56c.png)
这种关系为管理者提供了可操作的信息, 本质上是新的杠杆来推动预期的业务成果,如客户增长, 或者增加每个客户的销售额. 例如, 按地域或行业细分回顾历史销售数据可能会突出异常增长, 其来源可以为销售经理提供应用于其他细分市场的经验.
奥地利的维也纳
2020年6月18日成为会员
作者简介
拥有两个硕士学位,曾在斯洛文尼亚最大的企业工作, Josip是微软商业/数据库技术领域的资深人士.