定义高质量数据
通常,数据质量改进工作从主数据开始,根据定义,主。发现和完善规则是一个持续的过程,获得规则的最好方法之一是分享评估结果,这些结果通常会让利益相关方对数据有。高质量的数据能满足数据消费者的需要。在启动数据质量方案之前,有益的做法是了解业务需求、定义术语、识。根据一组问题,可以了解当前状态,并评估组织对数据质量改进的。执行这些工作的方式。引言一节所述,提高数据质量需要数据质量团队吸引业务和技术人员,这
1 定义高质量数据
许多人看到质量差的数据时都能辨识出,但是很少有人能够定义高
质量数据,或者他们用非常不严谨的术语定义它:“数据必须是正确
的”“我们需要准确的数据”。高质量的数据能满足数据消费者的需要。
在启动数据质量方案之前,有益的做法是了解业务需求、定义术语、识
别组织的痛点,并开始就数据质量改进的驱动因素和优先事项达成共
识。根据一组问题,可以了解当前状态,并评估组织对数据质量改进的
准备情况。
1)“高质量数据”是什么意思?
2)低质量数据对业务运营和战略的影响是什么?
3)更高质量的数据如何赋能业务战略?
4)数据质量改进需要哪些优先事项的推动?
5)对低质量数据的容忍度是多少?
6)为支持数据质量改进而实施的治理是什么?
7)配套实施的治理结构是什么?
要全面了解组织中数据质量的当前状态,需要从不同的角度来探讨
这个问题:
1)了解业务战略和目标。
2)与利益相关方面谈,以识别痛点、风险和业务驱动因素。
3)通过资料收集和其他剖析形式直接评估数据。
4)记录业务流程中的数据依赖关系。
5)记录业务流程的技术架构和系统支持。
上述评估过程可以揭示大量的机会,这需要根据对组织的潜在利益
进行优先排序。利用利益相关方(包括数据管理专员、业务和技术领域
专家)的输入,数据质量团队应定义数据质量的含义并提出项目优先
级。13.2.2 定义数据质量战略
提高数据质量要有一定的战略,应考虑到需要完成的工作以及人们
执行这些工作的方式。数据质量优先级必须与业务战略一致。采纳或开
发一个框架及方法论将有助于指导战略和开展战术,同时提供衡量进展
和影响的方法。一个框架应包括以下方法:
1)了解并优先考虑业务需求。
2)确定满足业务需求的关键数据。
3)根据业务需求定义业务规则和数据质量标准。
4)根据预期评估数据。
5)分享调查结果,并从利益相关方那里获得反馈。
6)优先处理和管理问题。
7)确定并优先考虑改进机会。
8)测量、监控和报告数据质量。
9)管理通过数据质量流程生成的元数据。
10)将数据质量控制集成到业务和技术流程中。
框架还应该考虑如何管理数据质量以及如何利用数据质量工具。如
引言一节所述,提高数据质量需要数据质量团队吸引业务和技术人员,
定义一个解决关键问题的工作计划和最佳实践,并制定支持数据质量持
续管理的操作流程。这样的团队通常是数据管理组织的一部分,数据质
量分析人员需要与各级数据管理专员密切合作,并对制度施加影响,包
括有关业务流程和系统开发的制度,即使这样的团队还是无法解决组织
面临的所有数据质量的挑战。数据质量工作和对高质量数据的承诺需要
嵌入组织实践。数据质量策略应该说明如何扩展最佳实践(参见第17
章)。
13.2.3 识别关键数据和业务规则
并非所有的数据都同等重要。数据质量管理工作应首先关注组织中
最重要的数据:如果数据质量更高,将为组织及其客户提供更多的价
值。可以根据监管要求、财务价值和对客户的直接影响等因素对数据进行优先级排序。通常,数据质量改进工作从主数据开始,根据定义,主
数据是任何组织中最重要的数据之一。重要性分析结果是一个数据列
表,数据质量团队可以使用该结果聚焦他们的工作。
在确定关键数据之后,数据质量分析人员需要识别能描述或暗示有
关数据质量特征要求的业务规则。通常,规则本身并没有明确的文档记
录,它们可能需要通过分析现有的业务流程、工作流、规则、政策、标
准、系统编辑、软件代码、触发器和过程、状态代码分配和使用以及简
单的常识进行逆向还原。例如,如果一家营销公司的目标锁定在特定人
群,那么数据质量的潜在指标可能是人口统计领域(出生日期、年龄、
性别和家庭收入等)的人口水平和合理性。
识别能描述或暗示有关数据质量特征要求的业务规则。大多数业务
规则都与如何收集或创建数据相关,但数据质量度量则围绕数据是否被
适当使用进行。数据创建和数据使用是相关的,人们之所以想使用数
据,正是因为它代表的含义以及数据创建。例如,要了解一个组织在某
季度或某一段时间内的销售业绩,需要依靠有关销售流程的可靠数据
(销售的数量和单位、销售给老客户和新客户的数量对比等)。
知道数据的所有使用方法是不可能的,但可以理解创建或收集数据
的过程和规则。描述数据是否适合使用的度量,应该根据已知用途和基
于数据质量指标(完整性、一致性、有效性、完整性等)的可测量规则
进行开发,这些有意义的指标提供了测量的基础。分析师通过质量指标
描述了规则(如字段x是强制的,必须有值)和结果(实际上,该字段
3%的记录未被填充,是空的;数据完整性仅为97%)。
在字段或列的级别,规则可以比较简单。完整性规则反映了字段是
强制的还是可选的,如果是可选的,还反映了填充字段的条件。有效性
规则依赖于规定有效值的域以及在某些情况下字段之间的关系。例如,
美国邮政编码本身必须是有效的,并且与美国国家代码正确关联;应在
数据集级别定义规则,如每个客户都必须有一个有效的邮寄地址。
因为大多数人不习惯用规则来思考数据,故定义数据质量规则具有
很大挑战性。有必要向利益相关方询问相关业务流程的输入和输出需求
来间接了解规则,这样有助于了解痛点、数据丢失或不正确时会发生什
么、如何识别问题、如何识别坏数据等。请记住,为了评估数据,不需
要一次了解所有规则。发现和完善规则是一个持续的过程,获得规则的最好方法之一是分享评估结果,这些结果通常会让利益相关方对数据有
一个新的视角,告诉他们想知道的数据信息,帮助他们更清晰地阐明规
则。
13.2.4 执行初始数据质量评估
一旦确定最关键的业务需求和支持它们的数据,数据质量评估的最
重要部分就是实际查看数据、查询数据,以了解数据内容和关系,以及
将实际数据与规则和期望进行比较。第一次这样做时,分析人员会发现
许多事情:数据中未被记录的依赖关系、隐含规则、冗余数据、矛盾数
据等,当然还有实际符合规则的数据。在数据管理专员、其他领域专家
和数据消费者的帮助下,数据治理分析人员需要对调查结果进行分类并
确定其优先级。
初始数据质量评估的目标是了解数据,以便定义可操作的改进计
划。通常最好从聚焦一项较小工作开始——一个基本的概念证明
(
Proof of Concept,POC)——来演示改进过程是如何工作的。步骤包
括:
1)定义评估的目标。这些目标将推动工作进展。
2)确定要评估的数据。重点应放在一个小的数据集,甚至一个数
据元素,或一个特定的数据质量问题上。
3)识别数据的用途和数据的使用者。
4)利用待评估的数据识别已知风险,包括数据问题对组织过程的
潜在影响。
5)根据已知和建议的规则检查数据。
6)记录不一致的级别和问题类型。
7)根据初步发现进行额外的深入分析,以便:
①量化结果。
②根据业务影响优化问题。
③提出关于数据问题根本原因的假设。
8)与数据管理专员、领域专家和数据消费者会面,确认问题和优
先级。9)使用调查结果作为规划的基础。
①解决问题,最好是找到问题的根本原因。
②控制和改进处理流程,以防止问题重复发生。
③持续控制和汇报。
13.2.5 识别改进方向并确定优先排序

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)