蜂巢

0 views
Skip to first unread message

Qing

unread,
Mar 31, 2008, 1:51:34 AM3/31/08
to tt...@googlegroups.com
 二月份的时候,曾经跟大家介绍过一种分布式计算的技术,叫做mapreduce。google让这种技术火热起来,并且也有了开源的实现,hadoop。本身,这个技术跟数据仓库没啥关系,是一门很基础的技术。不过我总觉得能够在数据仓库领域发挥很大作用,因为现在的数据访问技术太传统,是兼顾事务和分析处理的,并没有达到效率最大化。随着数据量越来越大,现在我们还在谈论T的时代,已经不少企业在谈论P时代了。那时候,需要一种更理想、更专业的数据访问基础设施。
 
 
这不,前些日子3月25日,据说有个hadoop summit,hadoop会议,这是开源的嘛,不过后台是yahoo,很多用户讲述自己如何使用它或跟他相关的故事。比如有IBM的人讲他们的JAQL、MS的人讲DryadLINQ,Amazon、Fackbook的人都有参与。其中Fackbook带来的应用值得我们关注。
Hadoop
 
他们的应用叫做HIVE,蜂巢。干嘛的?是一种数据仓库基础设施,fackbook内部的数据仓库。让他们的分析师以及工程师去分析网站点击流以及日志文件。他们设计了一种类似sql的语言,但底层是分布式访问大量机器上的数据资源——这种类SQL语言将最终被翻译成map-reduce过程。
 
这些信息主要是从参与这次会议的blog搜集的,没有太多实质内容。至于,分析师用什么样的分析工具,是自己专用的分析工具还是其他的?基于这种技术至上,还有哪些分析应用?这些问题没有详述,甚至也没有多少这种技术的细节(当然不会介绍细节)。有人汇总了一下,HIVE是啥:
· 使用Hadoop的数据仓库
· 是Facebook的数据仓库
· 结合SQL二进制流处理的查询语言
··开发人员喜欢直接访问map、reduce过程,直接进行二进制处理
··分析人员喜欢SQL
· Hive QL(解析、计划和执行引擎)
· 使用Thrift API(节俭API?跨平台KPI?)
· Hive CLI使用Python语言实现
· 初版的查询操作符包括:
··  Projections, equijoins, cogroups, groupby, & sampling
· 支持视图
· 支持40位用户(大概四分之一的工程师团队)
· 每天200GB的压缩数据
· 一周运行 3,514 个作业
· 项目组有5位工程师
 
我想以后关于HIVE的信息会逐渐多起来。甚至,我想开源的基于hadoop的数据仓库也会流行起来。而这种技术还将会改变一些现有的BI技术,尤其是数据整合技术。
 
比如Powerset带来一种叫HBASE的东西,从名字看就是一种数据库。他们的目的跟HIVE还不同,后者是直接为分析服务,HBASE似乎是想搞出一个通用的分布式数据库。

innovate511

unread,
Mar 31, 2008, 8:55:25 AM3/31/08
to ttnn BI 观点
看起来目前在关联和分析上还很弱,不过如果能和传统数据库技术结合起来,应该能给现有的数据仓库带来更好的整合方向,发挥各自优点。

On 3月31日, 下午1时51分, Qing <happys...@gmail.com> wrote:
> 二月份的时候,曾经跟大家介绍过一种分布式计算的技术<http://groups.google.com/group/ttnn/browse_thread/thread/b7803c06a4c1...>
> ,叫做mapreduce。google让这种技术火热起来,并且也有了开源的实现,hadoop。本身,这个技术跟数据仓库没啥关系,是一门很基础的技术。不-过我总觉得能够在数据仓库领域发挥很大作用,因为现在的数据访问技术太传统,是兼顾事务和分析处理的,并没有达到效率最大化。随着数据量越来越大,现在我们还在-谈论T的时代,已经不少企业在谈论P时代了。那时候,需要一种更理想、更专业的数据访问基础设施。

beijin...@gmail.com

unread,
Apr 14, 2008, 5:19:04 AM4/14/08
to ttnn BI 观点
这次summit更详细的文档,访问 http://www.hadoop.org.cn/hadoop/hadoop-summit-documents/

On 3月31日, 下午1时51分, Qing <happys...@gmail.com> wrote:
> 二月份的时候,曾经跟大家介绍过一种分布式计算的技术<http://groups.google.com/group/ttnn/browse_thread/thread/b7803c06a4c1...>
> ,叫做mapreduce。google让这种技术火热起来,并且也有了开源的实现,hadoop。本身,这个技术跟数据仓库没啥关系,是一门很基础的技术。不过我总觉得能够在数据仓库领域发挥很大作用,因为现在的数据访问技术太传统,是兼顾事务和分析处理的,并没有达到效率最大化。随着数据量越来越大,现在我们还在谈论T的时代,已经不少企业在谈论P时代了。那时候,需要一种更理想、更专业的数据访问基础设施。
>
> <http://hadoop.apache.org/>
> 这不,前些日子3月25日,据说有个hadoop summit <http://developer.yahoo.com/hadoop/summit/>
> ,hadoop会议,这是开源的嘛,不过后台是yahoo,很多用户讲述自己如何使用它或跟他相关的故事。比如有IBM的人讲他们的JAQL、MS的人讲DryadLINQ,Amazon、Fackbook的人都有参与。其中Fackbook带来的应用值得我们关注。
> [image: Hadoop] <http://hadoop.apache.org/>
>
> 他们的应用叫做HIVE,蜂巢。干嘛的?是一种数据仓库基础设施,fackbook内部的数据仓库。让他们的分析师以及工程师去分析网站点击流以及日志文件。他们设计了一种类似sql的语言,但底层是分布式访问大量机器上的数据资源——这种类SQL语言将最终被翻译成map-reduce过程。
>
> 这些信息主要是从参与这次会议的blog搜集的,没有太多实质内容。至于,分析师用什么样的分析工具,是自己专用的分析工具还是其他的?基于这种技术至上,还有哪些分析应用?这些问题没有详述,甚至也没有多少这种技术的细节(当然不会介绍细节)。有人汇总了一下,HIVE是啥:
> · 使用Hadoop的数据仓库
> · 是Facebook的数据仓库
> · 结合SQL二进制流处理的查询语言
> ··开发人员喜欢直接访问map、reduce过程,直接进行二进制处理
> ··分析人员喜欢SQL
> · Hive QL(解析、计划和执行引擎)
> · 使用Thrift API(节俭API?跨平台KPI?)
> · Hive CLI使用Python语言实现
> · 初版的查询操作符包括:
> ·· Projections, equijoins, cogroups, groupby, & sampling
> · 支持视图
> · 支持40位用户(大概四分之一的工程师团队)
> · 每天200GB的压缩数据
> · 一周运行 3,514 个作业
> · 项目组有5位工程师
> 以上摘自:http://mvdirona.com/jrh/perspectives/2008/03/26/HadoopSummitNotes5Fin...
Reply all
Reply to author
Forward
0 new messages