使用 Data Fabric 改进数据管理和质量。
使用 Data Fabric 改进数据管理和质量。
为了提高绩效,公司需要通过摆脱传统方法来正确管理其数据并提高其质量。
众所周知,从外部和内部数据中提取价值需要同时关注数据管理和数据质量。Gartner 将数据治理定义为“决策权和问责制框架的定义,以确保与数据和分析的评估、创建、消费和控制相关的适当行为。” 数据质量很大程度上取决于信息的准确性和最新程度;如果没有准确的数据和关于谁在您的组织中使用这些信息的知识,就很难耗尽这些知识。
尽管众所周知,数据管理和数据质量对组织至关重要——鉴于数据技术和能力的巨大进步——组织仍在努力确保数据质量和管理。
还要检查:
安永最近的一项研究发现,41% 的组织认为他们的数据质量是最大的挑战。Gartner 表示,糟糕的数据质量使组织每年平均损失 1290 万美元。
此外,安永报告发现,14% 的组织在访问技术基础设施和相关数据时遇到问题。如果没有足够的可用性、技术和数据基础设施,公司很难实施有效的数据管理框架。
与数据集中化相关的挑战
阻碍公司实现其数据质量和数据管理目标的许多障碍源于传统的以数据为中心的方法。随着组织的发展,运营资源的涌入会产生数据孤岛。公司正试图通过在一个地方收集来自这些来源的数据来克服这个问题。尽管近年来这种推理没有任何争论,但在数据量和复杂性增加的时代,它带来了许多重大挑战。
例如,将新数据源集成到集中式环境中需要大量时间和精力。考虑到对存储、计算机和接口的投资,以及跨所有数据源标准化数据格式的任务,数据集中化的成本很高。与此同时,数据孤岛正在上升,因为创建和使用数据的人与在大数据工具方面经验丰富的数据工程师之间存在着天然的分离。这是因为工程师缺乏业务和领域专业知识,而数据产品所有者缺乏技术专长。因此,组织无法查看整个企业的数据消耗情况。
数据集中的技术方面也可能导致监管政策的负面影响;内部竞争可能导致部门拒绝与其他部门共享其数据资产。在以数据为中心的环境中缺乏可见性和可用性会鼓励存储数据资产,从而导致企业失去许多数据货币化计划。
集中式环境中的数据整合问题也会导致使用过时的数据。例如,随着组织的发展,第三方可以与组织内的许多不同业务部门进行交互,每个业务部门都有不同的操作系统。这导致缺乏数据同步——一些数据是最新的,而另一些信息不再准确。这会阻碍实施和知识发现,从而影响业务成果。
最后,公司不能规定如何使用数据。当数据集中时,实施最少和最准确的访问控制是很复杂的,因此实现公司治理和合规性是一个挑战。
一种新的去中心化数据方法
因此很明显,传统的以数据为中心的方法给组织带来了许多需要克服的挑战。另一种策略是采用分散的方法。Data Fabric 概念是 Gartner 2022 年最重要的战略方向之一,它可以基于多种数据管理技术协同工作,改善整个公司生态系统的数据检索和集成。
一种这样的技术是数据虚拟化,它允许从任何操作源访问数据资源,而无需重复它们。换句话说,无需将数据从操作源复制到中央数据仓库,而是可以从数据集所在的位置查看和分析(甚至使用复杂的 AI 技术)。真正的 Data Fabric 方法还可以根据需要实时创建虚拟数据湖;这意味着可以随时创建和删除数据湖,而不会影响现有的应用程序和基础设施。
这为集成数据源和提供者提供了一种更简单、更具成本效益的替代方案,并支持跨企业数据流的单一视图。通过实现这种可见性级别,组织可以通过多种方式对数据采取行动。首先,通过使用基于特征和角色的高级控制机制,它可以将可见性和访问限制在最低、最详细的级别,从而更好地执行控制决策。
其次,由于数据资源更易于访问,组织可以协调团队之间的数据共享,减少孤立的数据资源。据 Gartner 称,这种动态改善数据使用的能力是 Data Fabric 真正价值的一部分。该研究公司表示,作为 Data Fabric 一部分的分析可以将数据管理工作减少多达 70%,并加快实现价值的时间。
重要的是,Data Fabric 的出色方法并不意味着放弃现有的中央数据湖或仓库,而是将其中的数据集成为动态且有弹性的基础架构的一部分。Data Fabric 可由应用程序或平台使用,并允许随时丰富、处理和可视化数据,从而使公司不再将数据锁定在孤岛或跨多个应用程序复制数据。
寻求通过现代化数据质量、管理和可发现性来改善业务成果的组织需要考虑他们的端到端数据方法,并问自己传统和集中的方法是否可以帮助他们实现目标。使用数据纹理的策略当然可以做到这一点。
作者:
医生。David Amzalaj – BlackSwan Technologies 数字化转型产品负责人兼首席执行官。
资料来源:IDG 连接