hadoop的中国案例

17 views
Skip to first unread message

Qing

unread,
Aug 26, 2008, 3:36:35 AM8/26/08
to tt...@googlegroups.com
有谁认识口碑网搞数据分析的哥们儿?
 
无意中在hadoop的wiki站点看到他的应用列表中有一项,看口碑网的朋友能不能给介绍一些实际的应用情况,或者还可以探讨一些具体的web分析:
 
 
Koubei.com Large local community and local search at China.
  • Using Hadoop to process apache log, analyzing user's action and click flow and the links click with any specified page in site and more. Using Hadoop to process whole price data user input with map/reduce.

注:hadoop是MapReduce的开源实现,之前ttnn曾介绍过,对数据仓库基础设施可能有非常大的潜在影响。

Wang shuai

unread,
Aug 26, 2008, 4:21:55 AM8/26/08
to tt...@googlegroups.com
这个应该和阿里巴巴的是一样的分析的吧。
认识阿里巴巴的也可以的。

2008/8/26 Qing <happ...@gmail.com>

jun.sky

unread,
Aug 26, 2008, 4:27:03 AM8/26/08
to tt...@googlegroups.com

不是有淘宝的朋友在群组里吗?

而且据可靠消息,淘宝目前用HADOOP是有应用的,可以出来和大家分享一下哈

 


发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 Wang shuai
发送时间: 2008年8月26 16:22
收件人: tt...@googlegroups.com
主题: Re: hadoop的中国案例

raullew

unread,
Aug 26, 2008, 5:38:31 AM8/26/08
to ttnn BI 观点
计算平台,主要是因为日志量太大了。。。与分析应用关系不大

On 8月26日, 下午3时36分, Qing <happys...@gmail.com> wrote:
> 有谁认识口碑网搞数据分析的哥们儿?
>
> 无意中在hadoop的wiki站点看到他的应用列表中有一项,看口碑网的朋友能不能给介绍一些实际的应用情况,或者还可以探讨一些具体的web分析:
>
> *
>
> > Koubei.com Large local community and local search at China.
>
> > -
>
> > Using Hadoop to process apache log, analyzing user's action and click
> > flow and the links click with any specified page in site and more. Using
> > Hadoop to process whole price data user input with map/reduce.
>
> > *
>
> 注:hadoop <http://hadoop.apache.org/core/>是MapReduce的开源实现,之前ttnn曾介绍过<http://groups.google.com/group/ttnn/browse_thread/thread/b7803c06a4c1...>
> ,对数据仓库基础设施可能有非常大的潜在影响。

Qing

unread,
Aug 27, 2008, 12:58:05 AM8/27/08
to tt...@googlegroups.com
嗯,mapreduce跟分析应用关系确实不大,比较基础的技术。
 
不过现在MapReduce在数据仓库领域已经有越来越多的应用。昨天介绍了MPP,其实这跟MapReduce也是有很大关系的。
 
提供两条相关消息,可以看到MR在数据仓库领域的进展:
1、Greenplum宣布支持MapReduce,这是昨天的事情;
2、Yahoo有一个项目,叫做PIG,这是一种底层使用Mapreduce技术的分析型语言;
3、有个叫Aster Data的公司,他们改造了SQL,搞了一种叫做SQL/MR的扩展语言,可以采用MapReduce技术访问数据仓库,宣称是In-Database MR。这是前几天,也是八月份的事情。
 
可想,MR作为一种并行计算技术,在数据仓库里面肯定要越来越被关注的。
 
对于国内淘宝、口碑网的应用,我对以下问题有些兴趣:
1、采用了多少台机器,都是什么配置,多大存储?
2、使用MR的体验是如何的?需要很细致的编码还是采用高层的访问语言?
3、有没有评估过采用这种技术的效果,是爽还是不爽?

 
2008/8/26 raullew <rau...@hotmail.com>
计算平台,主要是因为日志量太大了。。。与分析应用关系不大

..

Wang SH.

unread,
Aug 27, 2008, 1:06:23 AM8/27/08
to tt...@googlegroups.com
淘宝的机子应该是美国限制出口的ibm小机。

2008/8/27 Qing <happ...@gmail.com>



--
--~--~---------~--~----~------------~-------~--~----~
[真正的勇士,敢于面对惨淡的人生,更敢于剔去心中的痈疽]
[我的博客:http://hi.baidu.com/shuaiwong]
-~----------~----~----~----~------~----~------~--~---

zdq zdq2601

unread,
Aug 27, 2008, 1:08:13 AM8/27/08
to tt...@googlegroups.com
值得关注
 

http://groups.google.com/group/bestdba/

unread,
Sep 24, 2008, 5:29:18 AM9/24/08
to ttnn BI 观点
小机器,pc server cluster,普通机架式服务器,linux
java与c++ 写mr的应用都可
效果非常明显,很多关联分析型的应用以及日志点击流分析比数据库快的太多。
yahoo本身有2000个node的hadoop集群,用于计算webmap

greenplum基于postgresql的cluster效果也不错,低端服务器加分布式数据库软件就ok,可以关注一下。



On 8月27日, 下午12时58分, Qing <happys...@gmail.com> wrote:
> 嗯,mapreduce跟分析应用关系确实不大,比较基础的技术。
>
> 不过现在MapReduce在数据仓库领域已经有越来越多的应用。昨天介绍了MPP,其实这跟MapReduce也是有很大关系的。
>
> 提供两条相关消息,可以看到MR在数据仓库领域的进展:
> 1、Greenplum宣布支持MapReduce<http://ttnn.appspot.com/read?i=agR0dG5ucg8LEghOZXdzSXRlbRjnHww&u=http...>
> ,这是昨天的事情;
> 2、Yahoo有一个项目,叫做PIG <http://wiki.apache.org/pig/PigOverview>
> ,这是一种底层使用Mapreduce技术的分析型语言;
> 3、有个叫Aster Data的公司,他们改造了SQL,搞了一种叫做SQL/MR的扩展语言,可以采用MapReduce技术访问数据仓库,宣称是In-Database
> MR <http://www.asterdata.com/product/mapreduce.html>。这是前几天,也是八月份的事情。
>
> 可想,MR作为一种并行计算技术,在数据仓库里面肯定要越来越被关注的。
>
> 对于国内淘宝、口碑网的应用,我对以下问题有些兴趣:
> 1、采用了多少台机器,都是什么配置,多大存储?
> 2、使用MR的体验是如何的?需要很细致的编码还是采用高层的访问语言?
> 3、有没有评估过采用这种技术的效果,是爽还是不爽?
>
> 2008/8/26 raullew <raul...@hotmail.com>
>
>
>
> > 计算平台,主要是因为日志量太大了。。。与分析应用关系不大
>
> > ..- 隐藏被引用文字 -
>
> - 显示引用的文字 -
Reply all
Reply to author
Forward
0 new messages