丢失的保险库什么时候出 公测上线时间预告,
「Data Vault」数据仓库急需的喘息之机
Data Vault 是一种用于大规模数据仓库实施的方法。这是一种在企业级实施中加速数据流的方法,在这种实施中您要处理大量源系统。现在,在详细介绍此方法之前,让我们先看看现有数据仓库实现面临的问题。
企业数据仓库方法
一个典型的企业数据仓库。我们有一堆源系统,然后是一个临时层,它也充当所有数据的着陆层。然后对这些数据进行转换后,我们有一个数据仓库层,数据从这里发送到多个消费渠道。它可以是预先聚合的 OLAP 多维数据集或表格对象。
现在你在上面的架构中看到了什么问题。
上载时间:企业数据仓库必须首先将来自每个源系统的数据集成到中央数据存储库中,然后才能用于报告,这会增加项目的时间和精力。
复杂性和技能:数据仓库可能需要集成来自一百个来源的数据,而设计企业范围的数据模型以支持复杂的业务环境是一项重大挑战,需要高度熟练的数据建模专家。
缺乏灵活性:第三范式模型倾向于对现有数据关系进行建模,这会产生相对不灵活的解决方案,随着额外源的添加,需要大量返工。更糟糕的是,过度热心的数据建模专家经常试图通过提供几乎无法理解的过于复杂的通用模型来克服这一点。
现在,如果您不想走这条路线,还有另一种方法。那就是维度数据建模。
维度设计方法
在这种方法中,一旦数据进入着陆区,就会在该数据之上应用业务逻辑,并将该数据发布到维度和事实表中。通过这种方法,上市时间或简单来说交付时间会减少很多,但并非所有公平的故事都能活得更久。这种方法也存在某些问题。
1. 增加代码复杂度:ETL 代码(提取、转换和加载)变得如此复杂,以至于无法再管理。在单个代码库中执行数据清理、重复数据删除和数据确认确实变得非常困难。
2. 缺少原始数据:由于着陆区域是纯粹的临时性(每次删除和重新加载),我们没有原始数据的历史记录。这使得分析师很难发现有价值的新数据关系,而数据科学(最重要的是)需要原始数据的重要性日益增加,却被简单地忽略了。
3. 管理历史记录:由于没有原始数据的历史记录,因此很难回填额外的数据馈送。
4. 数据沿袭:由于技术和业务逻辑都是在不断增加的源代码沉积层中实现的,因此几乎不可能从报告追溯到源系统的数据项的沿袭。
所以我们已经看到了上述两种数据建模方法的问题。尽管现在人们正在这两种方法之间进行混合搭配以达到最佳设计。问题在于您的景观设计将持续多久,这是您最适合推理的问题。
现在让我们看看 Data Vault 如何解决这些问题。
Data Vault方法
在最初的印象中,这种架构与企业级数据仓库非常相似。这是因为 Data Vault 还使用着陆层来容纳传入的源数据。但是一旦数据离开着陆层并开始流向Vault区域,差异就显而易见了。主要区别如下:
数据加载:当数据从着陆区加载到原始数据库时,该过程纯粹是重组数据格式(而不是内容)之一。源数据既不会被清理也不会被修改,并且可以毫无问题地完全重建。
职责分离:Raw Vault 保存未修改的原始数据,唯一的处理完全是技术性的,以物理重构数据。业务规则提供额外的表和行,以使用业务保险库扩展原始保险库。这意味着业务规则既源自原始数据,又与原始数据分开存储。这种职责分离使得随着时间的推移管理业务规则更改变得更容易,并降低了整体系统的复杂性。
业务规则:业务规则的结果,包括重复数据删除、一致性结果,甚至计算都集中存储在Business Vault中。当为两个或多个数据集市计算结果时,这有助于避免重复计算和潜在的不一致。
数据集市:与将计算结果存储在数据集市中的事实和维度表中的维度数据模型不同,使用数据库方法,数据集市通常是短暂的,并且可以作为直接在业务和原始数据上的视图来实现保险库。这意味着随着时间的推移,它们都更容易修改,并且避免了结果不一致的风险。如果视图不能提供必要的性能级别,则存在将结果存储在表中的选项。
那么如何在 Data Vault 中对事物进行排序。那么我们需要深入了解它的内部机制。
Data Vault 是一个面向细节、历史跟踪和唯一链接的规范化表集,支持一个或多个业务功能领域。该设计灵活、可扩展、一致并能适应企业的需求。
现在让我们看看 Data Vault 的构建块。在 Data Vault 中,所有数据都被分组到三种类型的表中。这三种类型是:
- 集线器
- 链接
- 卫星
Data Vault的优势
Data Vault 通过在单一混合方法中结合两者的最佳方面,解决了第三范式企业数据仓库和维度设计方法中固有的困难。优点包括:
1. 增量交付:虽然在整个企业模型的上下文中构建任何数据仓库都是明智的,但 Data Vault 支持完全增量交付。就像维度设计方法一样,您可以从小处着手,并随着时间的推移逐步添加其他源。
2. 灵活性:与不灵活的企业建模方法不同,Data Vault 在添加其他源时无需返工。由于 Data Vault 分别存储原始数据和业务派生数据,因此可以轻松支持对业务规则的更改。
3. 降低复杂性:由于 Data Vault 以两步法构建,它将技术数据重组与业务规则的应用分开,这有助于隔离这些潜在的复杂阶段。同样,数据清理被视为一项业务规则,可以独立于初始数据加载工作进行管理。
4. 包含的原始数据:在 Data Vault 中记录原始数据意味着可以使用最初未提供的历史属性回填显示区域。如果数据集市是作为视图实现的,这就像向现有视图添加额外的列一样简单。
5. 优雅地支持随时间的变化:类似于Kimball 方法中的缓慢变化的维度,Data Vault 优雅地支持随时间的变化。然而,与纯维度设计不同的是,Data Vault 将原始数据和业务派生数据分开,并支持源系统和业务规则导致的更改。
6. 沿袭和审计:由于 Data Vault 包含标识源系统的元数据,因此可以更轻松地支持数据沿袭。与加载前清理数据的维度设计方法不同,Data Vault 更改始终是增量的,并且结果永远不会丢失,这提供了自动审计跟踪。
7. 高性能并行加载:随着Data Vault 2.0 中Hash Keys 的引入,消除了数据加载依赖,这意味着除了并行加载TB 到PB 的数据之外,还可以实现近乎实时的数据加载。
8. 自动化的可能性:虽然实体关系建模和维度设计都需要时间和经验来培养技能,但 Data Vault 往往更容易自动化,并且有多种工具(如下所列)可以帮助提供解决方案。
Data Vault 的缺点
Data Vault 并不是适用于每个数据仓库的完美解决方案,它确实有一些必须考虑的缺点。这些包括:
大量连接:设计不当的 Data Vault 设计将产生大量源系统派生表,但即使设计良好的解决方案也会将源表的数量乘以 2 或 3 倍。表的数量和连接可能会增加显得笨拙并导致复杂的连接条件。然而,这可以通过在 Business Vault 中正确使用桥接表来解决,并且与任何解决方案一样,这是对明显复杂性和灵活性的权衡。
临时报告:对于临时报告,您必须通过视图进行导航
两个数据仓库——成本翻倍?
在哪里使用Data Vault?
Data Vault 在提供良好的设计和坚持 Data Vault 2.0 原则方面需要一定的严谨性。与企业数据仓库一样,它旨在集成来自多个数据源的数据,因此在某些情况下可能会过大。
总而言之,如果您有中小型分析需求,并且由架构师、设计师和工程师组成的小型(10 人以下)团队提供来自少数系统的数据的解决方案,那么 Data Vault 可能不适合您的需求.
但是,如果您有一个包含 30 个或更多源系统的大型项目,这导致了巨大的数据集成挑战,并且准备接受新方法的技能和严谨性,那么 Data Vault 可能会为项目增加巨大的价值。
目前 Data Vault 2.0 是最近流行的版本。那么 2.0 版和它的前身有什么区别。我们看看吧
Data Vault 1.0 和 Data Vault 2.0 之间的区别
1. Data Vault 2.0 是一个完整的商业智能系统。它谈论从概念到交付的所有内容。虽然 Data Vault 1.0 主要关注建模并且许多建模概念相似,但 Data Vault 2.0 更进一步,讨论了从源到面向业务用户的构造的数据,以及实施、敏捷、虚拟化等方面的指导方针。
2. Data Vault 2.0 比几乎任何其他架构都能更好地适应变化。如果需要,它可以比 Data Vault 1.0 做得更好,因为设计上的变化可以适应 NoSQL 和 MPP 平台。 Data Vault 2.0 也已成功实施在像 Teradata 这样的 MPP RDBMS 平台上。
3. Data Vault 2.0 为“大数据”和“NoSQL”做好了准备。事实上,在一些实现中,数据是从 NoSQL 数据库实时获取的,并且具有非凡的成功案例。其中之一是在 WWDVC 2014 上展示的,组织通过使用这种架构节省了大量资金。
WWDVC2015 上展示了一个从 MongoDB 中吸收数据的近实时案例研究。不容错过。
4. Data Vault 2.0 充分利用了 MPP 风格的平台,并在设计时考虑了 MPP。 Data Vault 1.0 也在一定程度上做到了这一点,而 Data Vault 2.0 则通过零依赖类型架构将其提升到了完全不同的水平。当然,有一些警告,但我们也会涵盖这些。
5. Data Vault 2.0 可让您轻松绑定结构化和多结构化数据,您可以轻松地跨环境连接数据。这一特定方面让您可以在多个平台上构建数据仓库,同时使用最适合特定数据集的存储平台。它让您可以使用真正的分布式数据仓库。
6. Data Vault 2.0 更加注重敏捷性,将纪律敏捷交付 (DAD) 原则嵌入到架构中。同样,使用 Data Vault 1.0 当然可以实现敏捷,但这不是方法论的一部分。 Data Vault 2.0 不仅仅是“敏捷就绪”,它是完全敏捷的。
7. Data Vault 2.0 非常注重自动化和虚拟化。市场上已经有一些自动化工具获得了发明者的批准,他愿意与更多供应商合作。
Data Vault 2.0 是实时就绪、云就绪、NoSQL 就绪且大数据友好。Data Vault 2.0 真的准备好用它的成功案例和案例研究震撼世界
-
丢失的保险库什么时候出 公测上线时间预告, 2023-10-05
-
东风汽车集团与广东医学院达到战略合作 打造出国家级别自主创新服务平台, 2023-10-05
-
东风之爪最佳合成,原神东风之爪怎么合成 2023-10-05
-
东部战区机构海军军力不断在台湾海峡方位战备训练警巡,东部战区海军多艘舰艇实战化演习 2023-10-05
-
东部战区回复美加舰艇过航台湾海峡:海军军力全过程跟监警示,东部战区谈美加军舰过航台海 2023-10-05
-
东西问丨余中先:不同的语言文化如何做到“美美与共”?, 2023-10-05
-
东西方顶级当代艺术家“新闻媒体艺术之都”长沙市“打擂”, 2023-10-05
-
东西方青少年儿童网上聚集打开跨文化沟通之行, 2023-10-05
-
东西方艺术大师赴藏采风活动团:“雪原江南地区”有灵性, 2023-10-05