
呵呵,google的定价都离不开2的n次幂。
竟然没有采用大家一贯的“购买越多越优惠”的基本营销策略。
发件人: tt...@googlegroups.com
[mailto:tt...@googlegroups.com] 代表 Q
发送时间: 2009年11月12日 8:53
收件人: ttnn
主题: 白菜价的数据仓库
__________ Information from ESET Smart Security, version of
virus signature database 4578 (20091106) __________ The message was checked by ESET Smart Security.
发件人: tt...@googlegroups.com
[mailto:tt...@googlegroups.com] 代表 Q
发送时间: 2009年11月12日 8:53
收件人: ttnn
主题: 白菜价的数据仓库
前两天在名字的话题中提到teradata这个名字的落伍,这不,现在有了佐证。
也无所谓向上向下吧,也就是存储价格降低了而已。
2009/11/12 ding jianting <dfar...@gmail.com>
--
Phinex
相信会出现新的技能。 毕竟云有云计算, 云存储。
从年前开始一直在国内比较流行的 GREEPLUM 使用在廉价的pc上 ,采用2的n次方搭建的集群(32台或64台)有很强大的计算能力。处理上几百个T数据量挖掘很容易实现。
云计算可以让DW成本(每T数据,存储处理量)降低,依赖于廉价的pc 及高可靠的高速网来实现。
Python
MSN: shir...@163.com
发件人: tt...@googlegroups.com
[mailto:tt...@googlegroups.com] 代表 赵一帆
发送时间: 2009年11月12日 15:33
收件人:
tt...@googlegroups.com
主题: Re: 答复: 白菜价的数据仓库
以后dba都干什么呀?都搞应用吗?
数据仓库的对存储的需求来自两个方面,第一是数据量,第二是I/O能力及带宽。其实,如果要求只是1,现在的设备便宜的要命。无论是Oracle基于
Sun的Exadata2还是Greenplum,或者是Teradata的1600,等等设备,都很便宜。每块磁盘2TB,随便搞搞就是上百TB,价
格也就小几百万,这还是包括了DBMS和操作系统软件的。
但是第二项就很致命了,现在各个厂商都在拼比价格了,已经把这项几乎都快忽略了。单盘2TB@7200RPM,这能和146GB@15000RPM的设
备比吗?单从I/O带宽来看,就差的不是一点半点了,更别说转速和接口上的差异了。在并发量小的情况下,问题体现的不是很明显,一旦并发量上来这种存储
的性能下降的就不是一点半点了。
回另外一位老兄的帖子,DBA将来的发展前途。其实DBMS的发展基本上已经很成熟了,看看这些厂商近年来在新产品上的方向我们也就知道了。从技术层面
看,个人觉得把Greenplum这种东西down下来自己攒几个机器,理解一下大规模并行处理的内部实现机制,可能更有意思。
任何上仓库的厂商都想降低成本,尤其是硬件及其存储曾本。专业厂商有自己的优势。山寨也有山寨的优势。
毕竟建设仓库的是依靠自己的经济实力来投入的。 另外ibm 也想在廉价 pc server 进行linux 与db2 的 小型集群咚咚。
比较反驳的是 pc server 的 一块硬盘是1T, 但是每个pc server 上基本都是16块盘以上的。 做了rd 后 在条带 DD测试 速度很高。2的n次方做集群 总带宽很高能可到几十G/秒。
试算下来1T数据/RBM 价格的投资是不同的。
当然有钱的是老大,就上高端。没钱就买差的。再不就几百台廉价pc server 来高。有利必有弊。。
Python
MSN: shir...@163.com
发件人: tt...@googlegroups.com
[mailto:tt...@googlegroups.com] 代表 YY H
发送时间: 2009年11月13日 10:08
收件人:
tt...@googlegroups.com
主题: Re: 白菜价的数据仓库
忘记回复Greenplum 的东西 , Greenplum 本身就是原先的postgresql 加引擎形成的。是ibm出来的一帮人搞的这个引擎,不管如何发展也没有脱离 Shared-Nothing 的这个架构。
另外GP 的工作特点是用数据广播方式,对网络带宽以来要求极高。当然不得不承认GP 的并发性不怎么地。没法与db2,oracle 这样数据库专业户比较。在这里先说一点不是认为GP 多好。只不过是研究一下工作方式罢了。
Python
MSN: shir...@163.com
发件人: tt...@googlegroups.com
[mailto:tt...@googlegroups.com] 代表 YY H
发送时间: 2009年11月13日 10:08
收件人:
tt...@googlegroups.com
主题: Re: 白菜价的数据仓库
另外还有一方面:google提供的存储服务,一个用户是只能访问自己的数据,就是说一个客户要访问的数据范围是确定的,你有16T的空间,那你就只需要访问那16T空间里面的数据。而在数据仓库里面,大多用户对整个仓库的表都有访问的可能。
关键是ShareEverything存储成本太高了,而且数据量一大就有瓶颈嘛。用GP+PC Server来做DW,多划算,嘿嘿
On Nov 13, 11:14 am, "python" <pytho...@gmail.com> wrote:
> 忘记回复Greenplum 的东西 , Greenplum 本身就是原先的postgresql 加引擎形成
> 的。是ibm出来的一帮人搞的这个引擎,不管如何发展也没有脱离 Shared-Nothing 的
> 这个架构。
>
> 另外GP 的工作特点是用数据广播方式,对网络带宽以来要求极高。当然不得不承认GP
> 的并发性不怎么地。没法与db2,oracle 这样数据库专业户比较。在这里先说一点不是
> 认为GP 多好。只不过是研究一下工作方式罢了。
>
> Python
>
> MSN: shirly...@163.com
>
> 发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 YY H
> 发送时间: 2009年11月13日 10:08
> 收件人: tt...@googlegroups.com
> 主题: Re: 白菜价的数据仓库
>
> 另外还有一方面:google提供的存储服务,一个用户是只能访问自己的数据,就是说一
> 个客户要访问的数据范围是确定的,你有16T的空间,那你就只需要访问那16T空间里面
> 的数据。而在数据仓库里面,大多用户对整个仓库的表都有访问的可能。
>
> 当然,不排除google自己偷偷分析所有用户的数据
>
> 2009/11/12 loafer <13801396...@139.com>
On Nov 13, 10:08 am, YY H <gxgl...@gmail.com> wrote:
> 另外还有一方面:google提供的存储服务,一个用户是只能访问自己的数据,就是说一个客户要访问的数据范围是确定的,你有16T的空间,那你就只需要访问那-16T空间里面的数据。而在数据仓库里面,大多用户对整个仓库的表都有访问的可能。
> 当然,不排除google自己偷偷分析所有用户的数据
> 2009/11/12 loafer <13801396...@139.com>
>
>
>
> > 这个话题有意思,来聊几句。
>
> > 数据仓库的对存储的需求来自两个方面,第一是数据量,第二是I/O能力及带宽。其实,如果要求只是1,现在的设备便宜的要命。无论是Oracle基于
> > Sun的Exadata2还是Greenplum,或者是Teradata的1600,等等设备,都很便宜。每块磁盘2TB,随便搞搞就是上百TB,价
> > 格也就小几百万,这还是包括了DBMS和操作系统软件的。
>
> > 但是第二项就很致命了,现在各个厂商都在拼比价格了,已经把这项几乎都快忽略了。单盘2TB@7200RPM,这能和146GB@15000RPM的设
> > 备比吗?单从I/O带宽来看,就差的不是一点半点了,更别说转速和接口上的差异了。在并发量小的情况下,问题体现的不是很明显,一旦并发量上来这种存储
> > 的性能下降的就不是一点半点了。
>
> > 回另外一位老兄的帖子,DBA将来的发展前途。其实DBMS的发展基本上已经很成熟了,看看这些厂商近年来在新产品上的方向我们也就知道了。从技术层面
> > 看,个人觉得把Greenplum这种东西down下来自己攒几个机器,理解一下大规模并行处理的内部实现机制,可能更有意思。- Hide quoted text -
>
> - Show quoted text -
> 2009/11/13 Hawking, Bin <binha...@gmail.com>: