不好意思,这段时间一直在做上线运营工作,到TTNN时间越来越晚,越来越少,突然发现有BIer很多问题问我,我要一个一个解释以下:
列式存储的数据库类似sybase iq,teradata(自从独立于NCR,可以支持NT和UNIX),这种产品,是软件方式,我们在采购中,不但
要采购这类软件,还要采用一些磁盘阵列,主机等硬件.
这里讲的硬件方式,主要是讲数据仓库应用设备(data warehouse appliances)。数据仓库应用设备就是能够进行大型数据仓
库相关大规模并行处理操作的软硬捆绑套件。这些产品的设计就是想利用连接到网格的大量硬件节点的超强处理能力,最大限度的提升相关数据管理系统的功能,
以便创造出超高效率的工作负荷和搜索功能。简而言之,就是能够在相对较短的时间完成TB级的数据的装载和搜索任务。这个概念要解释起来也很简单:其中一
个节点充当分配器或管理器节点,当从调用程序里发布一条SQL语句时,分配器就会把它分割成若干的物理子查询(数量的多少由系统的节点数和数据在节点间
的物理分布决定),并在所有的节点间分配这些子查询。这些节点并行处理这个查询需求,并把执行结果返回到分配器节点。然后由分配器节点整理结果,如果需
要还要进行终极筛分,最后把结果返回到请求程序。而大规模并行处理系统已经盛行了相当长一段时间了,而且运作非常成功。不过,大多数情况下,大规模并行
处理系统的实施成本太高,而且必须配备专门的技术人员才有可能最大限度优化其效率。所以数据仓库应用设备(软硬捆绑套件,所以我们称为硬件方式,来区别
单独选型列式存储的数据库软件)就应用而生了,主要的好处在于:
1,较低的拥有总成本(TCO):与前一代的大规模并行处理系统相比,数据仓库应用设备价格要便宜多了,只是传统大规模并行处理系统成本的一个零
头。
2,较高的可扩展性:对于企业的钱袋来说,这是数据仓库应用设备系统最重要的一个分化指标。企业可能一开始会构建一个五到十个节点的小规模数据仓库
(类似网格方式,或者刀片方式),然后根据需求和预算的提高再增加新节点和额外的存储设备。
3,黑盒子:就像绝大部分的大规模并行处理系统一样,数据仓库应用设备系统不需要IT部门分开购买硬件和数据管理系统,不需要他们去安装数据库管理
系统(比如sybase iq,teradata),不需要再动用一个资深数据库管理员的时间去优化系统所有节点的性能。数据仓库应用设备之所以称之为
应用设备就是因为它是一个完整的设备包。除了数据库的物理设计和实现所有指定节点的效率最优化等问题外,IT人员不必担心其他任何问题。其实某种意义上
来将我们不应该把数据仓库应用设备当作一个硬件解决方案,它是真正的混合应用设备。
4,处理海量数据:数据仓库应用设备系统就是为了更容易处理超TB级数据而设计的。因此,如果你手头上要处理的数据量非常大,而又没那么多资金的
话,数据仓库应用设备可能是你最佳的选择。
5,高度灵活性:你想构建一个企业级数据仓库吗?没问题。你已经有了一个企业级数据仓库,又想构建一个小型的数据集市?没问题。你还没有构建数据仓
库解决方案的经验,但又想尝试构建一些新的数据仓库?都没问题。不管是哪种要求,你都不用付出太多。
6,实时数据仓库的实现:数据仓库应用设备支持目前流行的实时和近实时数据仓库的构建。
虽然以上的这些优点显而易见,不过凡事都得看两面。主要的缺点当然就是企业用来存储和支持节点的数据中心物理容量和能源容量的问题了。有一些企业其
数据中心没有足够的空间和/或能量来维持庞大的系统,要知道为四十、六十甚至更多的节点提供足够的空间、能源和冷却设备会是个大问题。
我们应该仔细的分析企业的短期和长期需求,再决定用哪套合适的工具(是采用列式存储的数据库管理系统的软件方式为主,还是采用数据仓库应用设备系统
的硬软件混合体为主)来达到一举两得的效果。不管采用什么工具,目前大型软件公司如HP,IBM,Oracel,微软都在他们原来主数据仓库管理系统
(就是EDW组件,一般会采用传统的RDB系统来做支撑)不变的情况下,实施CDW组件和DM组件的开始选择列式存储的数据库管理系统或者数据仓库应用
设备系统这类产品,因此这次微软的收购就是说明了这个趋势.这种组件产品选择的变化,深刻影响了原来体制下传统的DW架构理论和模型机制,导致这个变革
的加速.所以这些DW模型需要重新兼容这些产品的特性了.而其实反过来也可以讲,这些产品是在研究了DW架构和模型基础上归纳成产品了.这就是我所说的
未来DW的门槛越来越底,就象联发科一样使一个草根手机时代的到来,一个草根DW时代也将来到.