白菜价的数据仓库

9 views
Skip to first unread message

Q

unread,
Nov 11, 2009, 7:52:48 PM11/11/09
to ttnn
前两天在名字的话题中提到teradata这个名字的落伍,这不,现在有了佐证。

google的gmail和picasa相册可以升级存储空间,最多到16T,16T啊,头几年电信经营分析系统的数据仓库还不及这个数呢,而且这16T大概每年花费30几万人民币。这比一般数据仓库的投资(软件+硬件+服务)可算是九牛一毛吧。当然,也许这种对比也许没有可比性,毕竟google这不是数据仓库,只是数据存储而已。只是从这看出一般,存储如今是多么白菜的东西。而且也别忘了像google这样的云计算服务商,如果某一天将数据仓库放在云端也并非什么稀罕事,这已经不是能不能的问题,而是是否有有此打算的问题。如果存在这种SaaS的数据仓库,这种价钱,很有杀伤力吧。

看图:
?ui=2&view=att&th=124e5e03fefd52cf&attid=0.1&disp=attd&realattid=ii_124e5e03fefd52cf&zw
google_store .jpg
google_store .jpg

huwanli

unread,
Nov 11, 2009, 8:19:55 PM11/11/09
to tt...@googlegroups.com

呵呵,google的定价都离不开2n次幂。

竟然没有采用大家一贯的“购买越多越优惠”的基本营销策略。

 

发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 Q
发送时间: 20091112 8:53
收件人: ttnn
主题: 白菜价的数据仓库


 

__________ Information from ESET Smart Security, version of virus signature database 4578 (20091106) __________

 

The message was checked by ESET Smart Security.

 

http://www.eset.com



__________ Information from ESET Smart Security, version of virus signature database 4578 (20091106) __________

The message was checked by ESET Smart Security.

http://www.eset.com

python

unread,
Nov 11, 2009, 9:29:51 PM11/11/09
to tt...@googlegroups.com

卖存储,主要是在线存储。。;云计算, 云存储, 网格计算,网格存储 换汤不换药。。。。。。。。。

 

 

Python

MSN: shir...@163.com

 

发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 Q
发送时间: 20091112 8:53
收件人: ttnn
主题: 白菜价的数据仓库

 

前两天在名字的话题中提到teradata这个名字的落伍,这不,现在有了佐证。

Phinex

unread,
Nov 11, 2009, 9:56:25 PM11/11/09
to tt...@googlegroups.com
仓库往下走,分析往上走
必然趋势

 
2009/11/12 python <pyth...@gmail.com>



--
Phinex

ding jianting

unread,
Nov 11, 2009, 10:08:47 PM11/11/09
to tt...@googlegroups.com
新浪也开始搞云计算了,sina app engine

2009/11/12 Phinex <yikez...@gmail.com>



--
________________________________________
上海易客CRM 丁远
地址:上海市徐汇区零陵路零陵路631号爱乐大厦
电话:021-64876448        传真:021-64876441
手机:(0)13701696656     Email:dfar...@gmail.com
-----------------------------------------------------------------------

xichen...@gmail.com

unread,
Nov 11, 2009, 10:12:32 PM11/11/09
to tt...@googlegroups.com
也无所谓向上向下吧,也就是存储价格降低了而已。

2009/11/12 ding jianting <dfar...@gmail.com>

Phinex

unread,
Nov 11, 2009, 10:16:07 PM11/11/09
to tt...@googlegroups.com
云计算莫非是仓库的末日?

2009/11/12 <xichen...@gmail.com>
也无所谓向上向下吧,也就是存储价格降低了而已。

2009/11/12 ding jianting <dfar...@gmail.com>
--
Phinex

Qi Cici

unread,
Nov 11, 2009, 10:43:50 PM11/11/09
to tt...@googlegroups.com
云计算应该是让数据仓库成本更低、效率更高,数据仓库技术更普及吧。
不过,或许这并不是数据仓库厂商所期望的?至少对硬件厂商会有些冲击吧?
不懂云计算,瞎猜。

2009/11/12 Phinex <yikez...@gmail.com>

xichen...@gmail.com

unread,
Nov 11, 2009, 10:50:27 PM11/11/09
to tt...@googlegroups.com
云计算可能主要还是可以让仓库SaaS化吧。

2009/11/12 Qi Cici <cic...@gmail.com>

赵一帆

unread,
Nov 12, 2009, 2:33:29 AM11/12/09
to tt...@googlegroups.com
以后dba都干什么呀?都搞应用吗?

python

unread,
Nov 12, 2009, 3:04:39 AM11/12/09
to tt...@googlegroups.com

相信会出现新的技能。 毕竟云有云计算, 云存储。

从年前开始一直在国内比较流行的 GREEPLUM 使用在廉价的pc ,采用2n次方搭建的集群(32台或64台)有很强大的计算能力。处理上几百个T数据量挖掘很容易实现。         

云计算可以让DW成本(每T数据,存储处理量)降低,依赖于廉价的pc 及高可靠的高速网来实现。

 

 

Python

MSN: shir...@163.com

 

发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 赵一帆
发送时间: 20091112 15:33
收件人: tt...@googlegroups.com
主题: Re: 答复: 白菜价的数据仓库

 

以后dba都干什么呀?都搞应用吗?

loafer

unread,
Nov 12, 2009, 9:04:54 AM11/12/09
to ttnn BI 观点
这个话题有意思,来聊几句。

数据仓库的对存储的需求来自两个方面,第一是数据量,第二是I/O能力及带宽。其实,如果要求只是1,现在的设备便宜的要命。无论是Oracle基于
Sun的Exadata2还是Greenplum,或者是Teradata的1600,等等设备,都很便宜。每块磁盘2TB,随便搞搞就是上百TB,价
格也就小几百万,这还是包括了DBMS和操作系统软件的。

但是第二项就很致命了,现在各个厂商都在拼比价格了,已经把这项几乎都快忽略了。单盘2TB@7200RPM,这能和146GB@15000RPM的设
备比吗?单从I/O带宽来看,就差的不是一点半点了,更别说转速和接口上的差异了。在并发量小的情况下,问题体现的不是很明显,一旦并发量上来这种存储
的性能下降的就不是一点半点了。

回另外一位老兄的帖子,DBA将来的发展前途。其实DBMS的发展基本上已经很成熟了,看看这些厂商近年来在新产品上的方向我们也就知道了。从技术层面
看,个人觉得把Greenplum这种东西down下来自己攒几个机器,理解一下大规模并行处理的内部实现机制,可能更有意思。

innovate511

unread,
Nov 12, 2009, 9:41:09 AM11/12/09
to ttnn BI 观点
对我们做应用的来说,对技术发展,就是看热闹,使用什么技术都无所谓,呵呵。

YY H

unread,
Nov 12, 2009, 9:08:22 PM11/12/09
to tt...@googlegroups.com
另外还有一方面:google提供的存储服务,一个用户是只能访问自己的数据,就是说一个客户要访问的数据范围是确定的,你有16T的空间,那你就只需要访问那16T空间里面的数据。而在数据仓库里面,大多用户对整个仓库的表都有访问的可能。
当然,不排除google自己偷偷分析所有用户的数据
2009/11/12 loafer <13801...@139.com>

python

unread,
Nov 12, 2009, 10:06:49 PM11/12/09
to tt...@googlegroups.com

任何上仓库的厂商都想降低成本,尤其是硬件及其存储曾本。专业厂商有自己的优势。山寨也有山寨的优势。

  毕竟建设仓库的是依靠自己的经济实力来投入的。 另外ibm 也想在廉价 pc server 进行linux db2 小型集群咚咚。

比较反驳的是 pc server 一块硬盘是1T 但是每个pc server 上基本都是16块盘以上的。 做了rd 在条带  DD测试 速度很高。2n次方做集群 总带宽很高能可到几十G/秒。

试算下来1T数据/RBM 价格的投资是不同的。

 

当然有钱的是老大,就上高端。没钱就买差的。再不就几百台廉价pc server 来高。有利必有弊。。

 

 

 

 

Python

MSN: shir...@163.com

 

发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 YY H
发送时间: 20091113 10:08
收件人: tt...@googlegroups.com
主题: Re: 白菜价的数据仓库

python

unread,
Nov 12, 2009, 10:14:25 PM11/12/09
to tt...@googlegroups.com

忘记回复Greenplum 的东西  Greenplum 本身就是原先的postgresql 加引擎形成的。是ibm出来的一帮人搞的这个引擎,不管如何发展也没有脱离 Shared-Nothing 的这个架构。

另外GP 的工作特点是用数据广播方式,对网络带宽以来要求极高。当然不得不承认GP 的并发性不怎么地。没法与db2oracle 这样数据库专业户比较。在这里先说一点不是认为GP 多好。只不过是研究一下工作方式罢了。

 

 

 

Python

MSN: shir...@163.com

 

发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 YY H
发送时间: 20091113 10:08
收件人: tt...@googlegroups.com
主题: Re: 白菜价的数据仓库

 

另外还有一方面:google提供的存储服务,一个用户是只能访问自己的数据,就是说一个客户要访问的数据范围是确定的,你有16T的空间,那你就只需要访问那16T空间里面的数据。而在数据仓库里面,大多用户对整个仓库的表都有访问的可能。

笨笨

unread,
Nov 13, 2009, 12:10:25 AM11/13/09
to ttnn BI 观点
搭配使用嘛,DW / DMart => GP / ORCL,多好:)

关键是ShareEverything存储成本太高了,而且数据量一大就有瓶颈嘛。用GP+PC Server来做DW,多划算,嘿嘿

On Nov 13, 11:14 am, "python" <pytho...@gmail.com> wrote:
> 忘记回复Greenplum 的东西 , Greenplum 本身就是原先的postgresql 加引擎形成
> 的。是ibm出来的一帮人搞的这个引擎,不管如何发展也没有脱离 Shared-Nothing 的


> 这个架构。
>
> 另外GP 的工作特点是用数据广播方式,对网络带宽以来要求极高。当然不得不承认GP
> 的并发性不怎么地。没法与db2,oracle 这样数据库专业户比较。在这里先说一点不是
> 认为GP 多好。只不过是研究一下工作方式罢了。
>
> Python
>

> MSN: shirly...@163.com


>
> 发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 YY H
> 发送时间: 2009年11月13日 10:08
> 收件人: tt...@googlegroups.com
> 主题: Re: 白菜价的数据仓库
>
> 另外还有一方面:google提供的存储服务,一个用户是只能访问自己的数据,就是说一
> 个客户要访问的数据范围是确定的,你有16T的空间,那你就只需要访问那16T空间里面
> 的数据。而在数据仓库里面,大多用户对整个仓库的表都有访问的可能。
>
> 当然,不排除google自己偷偷分析所有用户的数据
>

> 2009/11/12 loafer <13801396...@139.com>

Hawking, Bin

unread,
Nov 13, 2009, 10:13:10 AM11/13/09
to ttnn BI 观点
难道你的意思是,买了Teradata DW后,联通就能访问移动的数据??应该是反过来,G云的数据共享更简单吧

On Nov 13, 10:08 am, YY H <gxgl...@gmail.com> wrote:
> 另外还有一方面:google提供的存储服务,一个用户是只能访问自己的数据,就是说一个客户要访问的数据范围是确定的,你有16T的空间,那你就只需要访问那-16T空间里面的数据。而在数据仓库里面,大多用户对整个仓库的表都有访问的可能。
> 当然,不排除google自己偷偷分析所有用户的数据
> 2009/11/12 loafer <13801396...@139.com>


>
>
>
> > 这个话题有意思,来聊几句。
>
> > 数据仓库的对存储的需求来自两个方面,第一是数据量,第二是I/O能力及带宽。其实,如果要求只是1,现在的设备便宜的要命。无论是Oracle基于
> > Sun的Exadata2还是Greenplum,或者是Teradata的1600,等等设备,都很便宜。每块磁盘2TB,随便搞搞就是上百TB,价
> > 格也就小几百万,这还是包括了DBMS和操作系统软件的。
>
> > 但是第二项就很致命了,现在各个厂商都在拼比价格了,已经把这项几乎都快忽略了。单盘2TB@7200RPM,这能和146GB@15000RPM的设
> > 备比吗?单从I/O带宽来看,就差的不是一点半点了,更别说转速和接口上的差异了。在并发量小的情况下,问题体现的不是很明显,一旦并发量上来这种存储
> > 的性能下降的就不是一点半点了。
>
> > 回另外一位老兄的帖子,DBA将来的发展前途。其实DBMS的发展基本上已经很成熟了,看看这些厂商近年来在新产品上的方向我们也就知道了。从技术层面

> > 看,个人觉得把Greenplum这种东西down下来自己攒几个机器,理解一下大规模并行处理的内部实现机制,可能更有意思。- Hide quoted text -
>
> - Show quoted text -

YY H

unread,
Nov 14, 2009, 10:49:38 AM11/14/09
to tt...@googlegroups.com
看来你误解了,我主要是想说每个用户要访问的数据量都比较少,就是google的卖给他的那点空间里面的数据。如果google有分析所有用户的数据,或者各个用户间数据可以共享,这个方面确实是不成立。

> 2009/11/13 Hawking, Bin <binha...@gmail.com>:

Reply all
Reply to author
Forward
0 new messages