有多大规模的项目、企业期望(包括期望的生命周期)、企业投资等都有关系。当然,正如前面分析到的,目前已上项目中,各种架构都尝试过了,优缺点都很明显。
不过复合式架构的缺点,我觉得并非搬动麻烦,而是整体要求很高,无论是EDW数据整合,还是类似HUB的CDW建设,再到数据集市,接口很多,对设计要求高,而对开发和测试的要求也很高,任何一步没走好,都可能导致项目濒临失败。这也是90年代很多想模仿CDW思想的项目失败的重要原因。但是效果也是很明显的,即使数万计的最终用户,各个部门世界各地的分公司的四大BI需求全部能满足,由于所有复杂数据转换问题都在后台已经完成了,BI工具可以更稳定更快速地实现BI。同时由于非常灵活,也能满足更多数据源和业务的加入,实现系统长期使用,避免重复投资带来的资金投入过大、稳定性降低、一致性在重复上项目后不能保证、前期项目维护问题太多导致最终用户不满等缺点。
至于数据搬动问题,我觉得不是大问题,因为没一步也可以看成一个独立的整体,只要按照流程移植,是不存在风险的,包括利用Kimball的思想进行DMR(Data
Mart
Restructure),数据集市也可以不断扩大或者拆分来满足更复杂BI整体需求,在这些灵活度方面我还是很有信心的。
其次,市区一级的综合统计指标体系如何建立。从一个市区的角度自定义一套综合统计指标体系,有点勉为其难。与国家统计局的统计口径是否保持一致?如果全然一致,为什么不从本市的统计局直接取?当然,统计局可能走的是一套自己的统计方法、例如抽样;自己的频度,例如一季一次;可能只向上级统计机构负责,而不向平级下级负责等等,以至于统计局的数据很难直接使用。统计指标体系的建立要把各主要业务部门的核心指标汇聚到一起,剔除重叠和不一致,有些需对跨部门的数据进行合并。这个指标体系的建立也是很大的挑战。
最后才是技术架构如何建立的问题。没有通用的或绝对正确的技术架构。它是解决具体问题的,随着实际状况的不同而调整。由于上述管理的和安全的原因,从源系统直接取数恐怕是很难实现的,退而求其次,只能要接口表或接口文件。如果不能从源系统的数据直接导出,可能还要定义接口格式,由开发系统的厂商提供。接口表(或接口文件)放置到从接口缓冲区转移到一个集中的场地(服务器)进行数据整合。统一规划的数据标准很难约束到每个部门的业务系统,毕竟都是垂直条线下来的;现实一点,只能约束接口标准。在设计中还要考虑数据如何存储(数据结构)、取数的频度、数据保留多久、整合后数据是否有需要回流到源系统等问题。此外,还要考虑有部分数据很难取到原始明细,要有人工补录的手段。
"yus...@gmail.com 写道:
请教一个电子政务方面的案例:如何对已经自成体系的垂直系统进行数据整合?
....
数据整合和应用整合有些区别。通常,应用整合指EAI,现在已经转向以SOA的理念实现EAI。数据整合通常指通过数据整合层或数据集成平台、EDW等进行的数据集成(Integration)/整合(Consolidation)/融合(Mediation)。广义的应用整合包含业务应用间的数据集成,即A的数据送往B,例如保险营业系统中的保单收费送往财务系统入帐。但应用整合更多是指A系统要求B完成一个操作,B完成后返回一个确认,以及这样的多步操作形成一个流程,流程集成是应用整合(集成)的高级应用。数据整合往往是为分析目的完成的。不同系统的数据送往一个集成平台,进行数据清洗和整合,为了实现分析应用。两者结合起来,可以称之为企业整合(EI)。
如上所述,两者是有交叉的。特别是SOA与主数据管理相结合之后,主数据集成通过SOA实现,主数据为业务系统形成统一的视图(在电信里已经有SID的应用)。这种理念的出现体现了SOA对传统业务系统架构的冲击,也是应用整合的一个发展方向。但主数据管理并不能替代数据集成,不能替代数据的清洗整合。两者服务于不同的目的,有不同(尽管可能有所重叠)的范围。倒是EII的出现对传统的数据整合架构有所冲击。EII体现了一种实时数据集成的理念,来自不同源系统的数据不集中存储,而是使用的时候边传输边集成。但显然,目前EII的实现不能隔离对业务系统数据库的访问压力,对于大量数据很难有效处理。