数据既是信息技术的产物,又是支撑。经过多年的信息技术的发展,数据已经形成了自己特有的科学领域,包括数据治理、数据分析、数据架构等。由于数据非常复杂,数据架构包含了很多方面,其中以下四个方面最有意义:

  • 数据的物理表现形式
  • 数据的逻辑联系
  • 数据的内部格式
  • 数据的文件结构

数据架构在各自具有意义的特点上不断演化:

大数据给组织带来了新的信息和决策机会,同时也具有着巨大的潜力。大数据和已有系统的整体流程如下:

原始大数据分为重复型和非重复型,这两种数据的处理方式和接口完全不同。重复型原始大数据的处理要对每一条记录进行解析,当定位到记录后对记录进行编辑,然后将其传送给已有系统环境,这种接口适用在原始大数据环境中,绝大多数记录都不会传送到已有系统环境中,通常当数据从大数据环境进入已有系统环境中时,将数据存放在数据仓库中是非常方便的,也可以根据需求将数据发送到已有系统环境的任何地方。一旦选用原始重复型大数据环境中的数据,就要对这些基于异常的数据进行如下分析:

  • 模式分析
  • 比较分析
  • 异常记录随着时间的增长及其分析

从非重复型原始大数据环境接入的接口与重复型的区别是非重复型;由于非重复型原始大数据环境中的大多数数据都具有业务价值,而重复型大数据环境中大多数数据业务价值较小,非重复型原始大数据接口中会选定大多数数据,并且非重复型原始大数据不宜查找,语境不明显,查找语境需要文本消岐。大多数非重复型原始大数据都是具有业务价值的,小部分没有用的数据会在文本消岐中会被排除。数据从文本消岐后就可以输出导DBMS中。

数据经过文本消岐后,一般采用另一条路线将输出数据回传到大数据环境中,原因包括以下几项:

  • 数据量:从文本消岐过程输出的数据量可能会很大,由于数量巨大需要回传到大数据环境中
  • 数据的本征:输出数据可能具有适合在大数据环境中存放的本质特征

在将文本消岐输出结果回传到大数据环境时,需要涉及大数据中“语境丰富”的数据。大数据语境丰富部分的数据和重复型原始大数据非常相似,区别在于大数据中语境丰富部分数据具有开放而明显的语境,而且依附大数据环境中与这部分数据相对应的基础数据。因此,大数据中有两种类型的重复型数据,即简单重复型数据和语境丰富的重复型数据,这种划分结构在分析处理时非常重要。

大数据可以划分为重复型和非重复型两个部分,而重复型部分分为简单重复型数据和语境丰富型数据。大数据环境中还关注处理过的数据,这些数据经过提炼或文本消岐可以存放在DBMS中。大数据和已有系统的接口并不是数据架构是关注的唯一接口,企业系统环境中另一个接口就是作业环境与数据仓库之间的接口——ETL接口。ETL代表抽取、转换、装载。通过ETL接口可以将应用程序产生的数据转换成企业共同的数据。作业数据是由各个应用程序定义的,其结果就是造成了不一致的数据定义、不一致的计算公式、不一致的数据结构等,但当数据经过ETL层的处理之后,这些不一致就会得到消解。ETL接口也有多种变体,其中一种就是将ODS包含在该接口中;另一种就是设立集结区的情况:

  • 第一种情况是将来自两个或者多个文件的数据必须经过合并处理,需要解决时间同步问题,先到的数据必须在集结区待命,直到可以进行合并操作为止
  • 第二种情况是大量的数据为了适应ETL处理的并行,需要将这些数据分割成不同的工作载荷
  • 第三种情况是来自作业的数据必须经过预处理

要时刻牢记集结区是属于数仓内部的,数据仓库内部的数据并不是返回给最终用户的数据,因此无论何时都不应该访问分析数仓内部的数据。

作业系统和数据仓库系统之间有一种接口变体称为CDC(变化数据捕获),对于高性能在线事务处理环境而言,每当需要将数据更新到数据仓库环境中时,扫描整个数据库就变得非常困难并且效率低下。这种情况下需要通过检查日志磁带来确定需要更新到数据仓库中的数据。创建日志磁带是为了进行在线备份,以便出现故障时恢复。

从业务环境导数据仓库的另一种替代品是内联转换,在内联转换中,会将需要流入数据仓库的数据视为在线事务处理的一部分来进行捕获和处理。

ETL接口是直接从作业环境将数据装载导数据仓库中的接口,当数据进入数据仓库之后就会进行转换。数据架构的特性之一就是能够提供一种高层视角:

数据架构中的数据完整性是由记录系统确立的,记录系统是唯一性、决定性确立数据价值的唯一场所,记录系统仅仅适用于详细的粒度数据,并不适合用于汇总数据或者派生出来的数据。

处理数据的环境会成为第一个记录系统,尤其是在OLTP环境下,随着时间的推移,数据架构中面向数据的记录系统会发生变化。另一种数据架构的方式是针对问题将数据架构划分成部分:

位置1是为了解决及时查询问题,位置2则是查询历史活动数据;位置3是ODS层浏览信息使用;位置4是数据集市,为主题提供维度数据。数据架构中的信息可以供不同的群体使用,位置1、2为办公人员提供信息,位置3为所有人员提供,位置4根据部门进行划分,而位置5则可以作为整个组织的数据汇聚地。

 

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐