蜂巢

10 views

Skip to first unread message

Qing

unread,

Mar 31, 2008, 1:51:34 AM3/31/08

to tt...@googlegroups.com

二月份的时候，曾经跟大家介绍过一种分布式计算的技术，叫做mapreduce。google让这种技术火热起来，并且也有了开源的实现，hadoop。本身，这个技术跟数据仓库没啥关系，是一门很基础的技术。不过我总觉得能够在数据仓库领域发挥很大作用，因为现在的数据访问技术太传统，是兼顾事务和分析处理的，并没有达到效率最大化。随着数据量越来越大，现在我们还在谈论T的时代，已经不少企业在谈论P时代了。那时候，需要一种更理想、更专业的数据访问基础设施。

这不，前些日子3月25日，据说有个hadoop summit，hadoop会议，这是开源的嘛，不过后台是yahoo，很多用户讲述自己如何使用它或跟他相关的故事。比如有IBM的人讲他们的JAQL、MS的人讲DryadLINQ，Amazon、Fackbook的人都有参与。其中Fackbook带来的应用值得我们关注。

他们的应用叫做HIVE，蜂巢。干嘛的？是一种数据仓库基础设施，fackbook内部的数据仓库。让他们的分析师以及工程师去分析网站点击流以及日志文件。他们设计了一种类似sql的语言，但底层是分布式访问大量机器上的数据资源——这种类SQL语言将最终被翻译成map-reduce过程。

这些信息主要是从参与这次会议的blog搜集的，没有太多实质内容。至于，分析师用什么样的分析工具，是自己专用的分析工具还是其他的？基于这种技术至上，还有哪些分析应用？这些问题没有详述，甚至也没有多少这种技术的细节（当然不会介绍细节）。有人汇总了一下，HIVE是啥：

· 使用Hadoop的数据仓库

· 是Facebook的数据仓库

· 结合SQL二进制流处理的查询语言

··开发人员喜欢直接访问map、reduce过程，直接进行二进制处理

··分析人员喜欢SQL

· Hive QL（解析、计划和执行引擎）

· 使用Thrift API（节俭API？跨平台KPI？）

· Hive CLI使用Python语言实现

· 初版的查询操作符包括：

·· Projections, equijoins, cogroups, groupby, & sampling

· 支持视图

· 支持40位用户（大概四分之一的工程师团队）

· 每天200GB的压缩数据

· 一周运行 3,514 个作业

· 项目组有5位工程师

以上摘自：http://mvdirona.com/jrh/perspectives/2008/03/26/HadoopSummitNotes5FinalHBaseRapleaveHiveAutodeskComputingInTheCloudFutureDirectionPanel.aspx

我想以后关于HIVE的信息会逐渐多起来。甚至，我想开源的基于hadoop的数据仓库也会流行起来。而这种技术还将会改变一些现有的BI技术，尤其是数据整合技术。

比如Powerset带来一种叫HBASE的东西，从名字看就是一种数据库。他们的目的跟HIVE还不同，后者是直接为分析服务，HBASE似乎是想搞出一个通用的分布式数据库。

innovate511

unread,

Mar 31, 2008, 8:55:25 AM3/31/08

to ttnn BI 观点

看起来目前在关联和分析上还很弱，不过如果能和传统数据库技术结合起来，应该能给现有的数据仓库带来更好的整合方向，发挥各自优点。

On 3月31日, 下午1时51分, Qing <happys...@gmail.com> wrote:
> 二月份的时候，曾经跟大家介绍过一种分布式计算的技术<http://groups.google.com/group/ttnn/browse_thread/thread/b7803c06a4c1...>
> ，叫做mapreduce。google让这种技术火热起来，并且也有了开源的实现，hadoop。本身，这个技术跟数据仓库没啥关系，是一门很基础的技术。不-过我总觉得能够在数据仓库领域发挥很大作用，因为现在的数据访问技术太传统，是兼顾事务和分析处理的，并没有达到效率最大化。随着数据量越来越大，现在我们还在-谈论T的时代，已经不少企业在谈论P时代了。那时候，需要一种更理想、更专业的数据访问基础设施。

beijin...@gmail.com

unread,

Apr 14, 2008, 5:19:04 AM4/14/08

to ttnn BI 观点

这次summit更详细的文档，访问　http://www.hadoop.org.cn/hadoop/hadoop-summit-documents/

On 3月31日, 下午1时51分, Qing <happys...@gmail.com> wrote:
> 二月份的时候，曾经跟大家介绍过一种分布式计算的技术<http://groups.google.com/group/ttnn/browse_thread/thread/b7803c06a4c1...>

> ，叫做mapreduce。google让这种技术火热起来，并且也有了开源的实现，hadoop。本身，这个技术跟数据仓库没啥关系，是一门很基础的技术。不过我总觉得能够在数据仓库领域发挥很大作用，因为现在的数据访问技术太传统，是兼顾事务和分析处理的，并没有达到效率最大化。随着数据量越来越大，现在我们还在谈论T的时代，已经不少企业在谈论P时代了。那时候，需要一种更理想、更专业的数据访问基础设施。
>

> <http://hadoop.apache.org/>
> 这不，前些日子3月25日，据说有个hadoop summit <http://developer.yahoo.com/hadoop/summit/>

> ，hadoop会议，这是开源的嘛，不过后台是yahoo，很多用户讲述自己如何使用它或跟他相关的故事。比如有IBM的人讲他们的JAQL、MS的人讲DryadLINQ，Amazon、Fackbook的人都有参与。其中Fackbook带来的应用值得我们关注。

> [image: Hadoop] <http://hadoop.apache.org/>

>
> 他们的应用叫做HIVE，蜂巢。干嘛的？是一种数据仓库基础设施，fackbook内部的数据仓库。让他们的分析师以及工程师去分析网站点击流以及日志文件。他们设计了一种类似sql的语言，但底层是分布式访问大量机器上的数据资源——这种类SQL语言将最终被翻译成map-reduce过程。
>
> 这些信息主要是从参与这次会议的blog搜集的，没有太多实质内容。至于，分析师用什么样的分析工具，是自己专用的分析工具还是其他的？基于这种技术至上，还有哪些分析应用？这些问题没有详述，甚至也没有多少这种技术的细节（当然不会介绍细节）。有人汇总了一下，HIVE是啥：
> · 使用Hadoop的数据仓库
> · 是Facebook的数据仓库
> · 结合SQL二进制流处理的查询语言
> ··开发人员喜欢直接访问map、reduce过程，直接进行二进制处理
> ··分析人员喜欢SQL
> · Hive QL（解析、计划和执行引擎）
> · 使用Thrift API（节俭API？跨平台KPI？）
> · Hive CLI使用Python语言实现
> · 初版的查询操作符包括：
> ·· Projections, equijoins, cogroups, groupby, & sampling
> · 支持视图
> · 支持40位用户（大概四分之一的工程师团队）
> · 每天200GB的压缩数据
> · 一周运行 3,514 个作业
> · 项目组有5位工程师

> 以上摘自：http://mvdirona.com/jrh/perspectives/2008/03/26/HadoopSummitNotes5Fin...

Reply all

Reply to author

Forward

0 new messages