小机器,pc server cluster,普通机架式服务器,linux
java与c++ 写mr的应用都可
效果非常明显,很多关联分析型的应用以及日志点击流分析比数据库快的太多。
yahoo本身有2000个node的hadoop集群,用于计算webmap
greenplum基于postgresql的cluster效果也不错,低端服务器加分布式数据库软件就ok,可以关注一下。
On 8月27日, 下午12时58分, Qing <
happys...@gmail.com> wrote:
> 嗯,mapreduce跟分析应用关系确实不大,比较基础的技术。
>
> 不过现在MapReduce在数据仓库领域已经有越来越多的应用。昨天介绍了MPP,其实这跟MapReduce也是有很大关系的。
>
> 提供两条相关消息,可以看到MR在数据仓库领域的进展:
> 1、Greenplum宣布支持MapReduce<
http://ttnn.appspot.com/read?i=agR0dG5ucg8LEghOZXdzSXRlbRjnHww&u=http...>
> ,这是昨天的事情;
> 2、Yahoo有一个项目,叫做PIG <
http://wiki.apache.org/pig/PigOverview>
> ,这是一种底层使用Mapreduce技术的分析型语言;
> 3、有个叫Aster Data的公司,他们改造了SQL,搞了一种叫做SQL/MR的扩展语言,可以采用MapReduce技术访问数据仓库,宣称是In-Database
> MR <
http://www.asterdata.com/product/mapreduce.html>。这是前几天,也是八月份的事情。
>
> 可想,MR作为一种并行计算技术,在数据仓库里面肯定要越来越被关注的。
>
> 对于国内淘宝、口碑网的应用,我对以下问题有些兴趣:
> 1、采用了多少台机器,都是什么配置,多大存储?
> 2、使用MR的体验是如何的?需要很细致的编码还是采用高层的访问语言?
> 3、有没有评估过采用这种技术的效果,是爽还是不爽?
>
> 2008/8/26 raullew <
raul...@hotmail.com>
>
>
>
> > 计算平台,主要是因为日志量太大了。。。与分析应用关系不大
>
> > ..- 隐藏被引用文字 -
>
> - 显示引用的文字 -