有个术语,一直没整明白,却总是出现。data stewardship,从字面上,可以称为"数据管理",但他和Data management有什么区别呢?叫"数据管家"?似乎是个颇为奇怪的称呼。还是先不管这个概念的称谓,考虑其本身的含义吧。
至少这个概念跟数据脱不开干系吧,和Data Management有很多相似的地方。但后者有更宽泛的含义,数据库的管理、ETL的管理、元数据的管理、存储的管理都可以算到数据管理的领域。而这个Steward,可能是Data Management中的某个部分。当然,这只是猜想,因为毕竟在我们身边的项目中,公司环境里面,连提数据管理的都不多,更别谈提这个古怪的名词了。没有直观的东西,只能瞎想想而已。
Steward经常会和数据质量、数据一致性一起出现,因此我怀疑它描述了一种职能——在企业中,当数据形成一种资产,需要一个角色来管理他的产生、分配、使用。以往的组织结构中,这种需求不是没有,但是很弱。当数据量越来越膨胀(譬如建了数据仓库),四处泛滥,这种被管理的需求就强化起来。现在问问一个公司里面,谁对数据质量最终负责。恐怕很难找到吧,在一个项目里面倒是能够找到的。比如去找ETL组的人,于是他们赶紧去查明原因,可对于数据源那头,他也是没法控制。而且对于ETL原因之外的数据质量问题,例如数据模型的问题,他也是无能为力。于是这个质量问题变成了悬案。
可能正是这种情况,导致了Data Stewardship的出现。把它从系统管理员的角色分化出来,按照这个传统命名,似乎叫做"数据管理员"比较合适。