关于数据仓库专用设备(datawarehouse appliance),以前讲过一点。
数据仓库发展这么多年了,这些专用设备好像还没有落入普通企业家,是一个很小的市场。不过我总是觉得未来的这块市场会增大,为什么呢?因为现在数据量确实是在太大,用oracle、db2这样的通用数据库来作数据仓库实在是有点跟不上。不是否认这些厂商的技术,但因为技术架构的问题,终于还是要术业有专攻。
其中简单介绍了这个领域的主要产品的性能,包括Teradata、Netezza、DATAlegro、Vertica、Dataupia、ParAccel、HP Neoview、Greenplum、Inforbright、Kognitio KX2、Sybase IQ,以及Oracle、MS SQLServer等等。从处理的数据量和使用性两个角度来对比,数据量区分高端低端,标准很奇怪——高端,处理的数据量至少是比Oracle大的。低端,比Oracle能处理的少。从使用性来看,也区分高低端,高者是企业级数据仓库,低者是数据集市。详细的内容可以参见原文,相信这是一份比较全的数据仓库专用设备产品列表,作者在这个领域算是个长期观察家。
大家还可以注意到,这个列表里面没有开源产品。但也许未来几年会有,这位作者也一直在关注分布式计算的技术,只是,前些天谈到了,现在确实没有基于这种技术的开源数据仓库产品,只有facebook弄出一个自家生产自己用的"数据仓库"。你说他们会拿出来开源吗?未必不可能,即便他不肯,肯定也有好事者去弄这个。前些日子一位朋友说,对这个很感兴趣,能不能组织个开源项目,我们干他一票。对此,就我所知,我们这里没这种开源的习惯,因此回答说,没有兴趣。
但至少可以感到,这个领域确实有意思,有很多很多的处女,地。确实也是,我们中国在这类通用产品上的研究真的很少,做这件事情肯定能够让人兴奋。如果哪位闲的无聊,可以搞一个这样的项目,或者即便是将国外一些尚不成型的开源项目移植到本土,在我们国内搞个团队,也是好的。如果这种分布式数据仓库成了,中国待开发的BI市场大得很,这是眼前的。而长远的,每个企业产生的数据量越来越大,互联网、3G、rfid...要准备参与未来市场的竞争,得练练基本功。
谁想搞,我决定不光用我的精神支持,还要用肉体。