二月份的时候,曾经跟大家
介绍过一种分布式计算的技术,叫做mapreduce。google让这种技术火热起来,并且也有了开源的实现,hadoop。本身,这个技术跟数据仓库没啥关系,是一门很基础的技术。不过我总觉得能够在数据仓库领域发挥很大作用,因为现在的数据访问技术太传统,是兼顾事务和分析处理的,并没有达到效率最大化。随着数据量越来越大,现在我们还在谈论T的时代,已经不少企业在谈论P时代了。那时候,需要一种更理想、更专业的数据访问基础设施。
这不,前些日子3月25日,据说有个
hadoop summit,hadoop会议,这是开源的嘛,不过后台是yahoo,很多用户讲述自己如何使用它或跟他相关的故事。比如有IBM的人讲他们的JAQL、MS的人讲DryadLINQ,Amazon、Fackbook的人都有参与。其中Fackbook带来的应用值得我们关注。
他们的应用叫做HIVE,蜂巢。干嘛的?是一种数据仓库基础设施,fackbook内部的数据仓库。让他们的分析师以及工程师去分析网站点击流以及日志文件。他们设计了一种类似sql的语言,但底层是分布式访问大量机器上的数据资源——这种类SQL语言将最终被翻译成map-reduce过程。
这些信息主要是从参与这次会议的blog搜集的,没有太多实质内容。至于,分析师用什么样的分析工具,是自己专用的分析工具还是其他的?基于这种技术至上,还有哪些分析应用?这些问题没有详述,甚至也没有多少这种技术的细节(当然不会介绍细节)。有人汇总了一下,HIVE是啥:
· 使用Hadoop的数据仓库
· 是Facebook的数据仓库
· 结合SQL二进制流处理的查询语言
··开发人员喜欢直接访问map、reduce过程,直接进行二进制处理
··分析人员喜欢SQL
· Hive QL(解析、计划和执行引擎)
· 使用Thrift API(节俭API?跨平台KPI?)
· Hive CLI使用Python语言实现
· 初版的查询操作符包括:
·· Projections, equijoins, cogroups, groupby, & sampling
· 支持视图
· 支持40位用户(大概四分之一的工程师团队)
· 每天200GB的压缩数据
· 一周运行 3,514 个作业
· 项目组有5位工程师
我想以后关于HIVE的信息会逐渐多起来。甚至,我想开源的基于hadoop的数据仓库也会流行起来。而这种技术还将会改变一些现有的BI技术,尤其是数据整合技术。
比如Powerset带来一种叫HBASE的东西,从名字看就是一种数据库。他们的目的跟HIVE还不同,后者是直接为分析服务,HBASE似乎是想搞出一个通用的分布式数据库。