在一些工具厂商的产品系列中,有提到master data的东西,例如hyperion、SAP。Master data?这是平时很少接触到的名词,是什么东西?从前曾经看过一些介绍,将他理解为被参照的数据,几乎等同于我们常见的维表数据。然而,从那些工具厂商产品介绍的内容看,master data是个不简单的东西,很重要,非常重要,和元数据竟然有点一样了。这开始让我迷惑。它究竟是什么东西?中文叫啥?"主数据"?
有人将数据分成五种,元数据(Meta data)、系统/应用数据(system/application data)、事务数据(transactional data)、参照数据(reference data)和主数据(master data)。仅从定义上看,还是无法清楚地区分他们(主要是鸟语,理解的准确性有些打折)。
可以尝试理解一下。这里的元数据几乎仅仅指那些表字段、名称等信息。系统/应用数据是指系统和应用的数据定义和配置信息。事务数据是应用程序针对业务活动产生的数据。参照数据是用来描述事务的,为事务提供环境。这有些抽象,可以理解为一个数字之前的若干定语吧。例如56这个数,前面加上张三、在北京、8点开始的通话时长这些定语,才表示了通话一次事务。最后的主数据是指一组参照数据(这为什么形成一种新的分类?),并且这些参照数据是来源于不同的源,经过对应、转换生成一种controlling set,这个词不明白是啥意思。但估计主数据和参照数据的区别是前者为后者建立的对应关系数据,例如在经营分析中,如果要对数据源的代码表转换成为代理键,建立的参照表就是这类主数据。不过对于国内企业,例如联通这样的,系统并不算复杂,这种主数据的存在还不算明显。常见的主数据例如客户数据对应,来自不同的客户数据需要统一,而联通的客户数据基本是以营帐为准,基本不用什么对应。而在电信中,数据系统复杂一些,客户数据确实会存在不同步的情况,倒是有建立主数据的必要。然而,这些客户数据动辄几百万,为他们建立映射关系,可不是简单的工作。
按照上面对主数据理解,是"参照数据的映射关系",很担心这样的理解是不是准确,因为它反映的是对应关系,称之为"主",有些名不副实。Ok,在没有弄明白之前,姑且先这样理解。
不论怎样,上面对数据的5中分类给了新的提示,一种不错的分类,可以说这是按照数据用途分类。而相对早期考虑的"数据形态",将数据分成累计快照、周期快照和事件型,那可以算是一种方便数据增量获取的分类方法。