Hadoop中国2009云计算大会

14 views
Skip to first unread message

Q

unread,
Nov 17, 2009, 10:54:39 PM11/17/09
to ttnn
云计算、hadoop、mapreduce、数据仓库、数据分析....

这些词是交杂在一起的,BI的底层基础架构是否正在发生一些变化?对于那些底层开发技术人员来说,在未来若干年内,所需的技能是否需要改变?...

云计算跟数据管理的关系非常紧密,互联网行业是尝试新技术的先锋,百度、阿里、yahoo、非死不可...他们尝试这种技术的目的大多也是为了海量数据存储、数据分析,可以关注几个发言人的叙述。
9:58 yahoo的目的
11:5 移动大云的挖掘挖掘
11:21 非死不可的用法
11:51 cloudera的应用行业

另参考其他几个跟此相关的讨论:

------------
Hadoop中国2009云计算大会(实录)
来源: Linux论坛  日期: 2009.11.15 15:25 (共有0条评论) 我要评论
 
Hadoop中国2009云计算大会(实录) 


时间:2009-11-15 8:0:0
地点:中国科学院计算技术研究所
主持人:查礼
嘉宾:
徐志伟(中国科学院计算技术研究所总工程师,研究员)
Eric Baldeschwieler (VP of Engineering, Hadoop Development)
黄晓庆(中国移动通信研究院院长)
邵铮(Facebook inc.资深工程师)
Christophe Bisciglia (Cloudera公司副总裁,联合创始人)
邵辉(百度系统部总监 框计算推进小组组长)
郑皓(Technical Director,雅虎北京研发中心)
查礼(中国科学院计算技术研究所网络重点实验室,副研究员)


[主持人 查礼]:大家上午好!首先介绍一下,今天到场的嘉宾有:中科院计算所总工徐志伟先生,雅虎软件开发副总裁Eric Baldeschwieler,中国移动通信研究院黄晓庆院长,百度系统部总监邵辉先生,雅虎北京研发总经理张晨先生,Facebook资深工程师邵铮先生。Hadoop此前举行了两届。本次大会的主题思想是挑战协作创新社区。其意义在于探讨Hadoop发展和应用中面临挑战的问题,如我们所知,近几年来Hadoop吸引了学术界和产业界的注意,特别是很多互联网公司在使用Hadoop进行生产和运行,比如说雅虎和facebook,我个人认为,这都得益于两点,第一,Hadoop是面向应用问题,第二,Hadoop是开放源码的软件。Hadoop是针对解决处理海量数据而设计的,这个问题是众多互联网公司需要面对的,开放源码不仅提供了工具,也提供了交流和合作的舞台,希望通过广大Hadoop爱好者的努力,使Hadoop越来越强大,越来越好用,甚至催生Hadoop新的互联网的应用。      9:16

[徐志伟]:非常欢迎海内外的朋友们来参加这次会议。我们的所长李国杰院士今天突然到去出差,所以他让我来转达他对我们的祝贺,而且我们计算所看见这个Hadoop club,原来是一个草根运动,现在得到企业界的一致支持,尤其是年轻的同学们的参与,这是我们非常高兴看见的。计算所也将一如既往继续支持这种社区性的活动。      9:21

[徐志伟]:今天我想跟大家谈三个问题,第一,我们可能十几年以前就在做网络计算的研究,以前的名词是叫别的,不像今天叫的很热的“云计算”,这是计算所长期的战略,我想跟大家讲讲计算所为什么要做这样的事情,另外它的关注重点是什么,还有我跟大家举几个例子。      9:22

[徐志伟]:我们计算所做事情主要有两个因素,一是要有国家战略需求,第二跟我们的学科——计算机科学技术的学科发展密切相关。我先给大家讲讲市场的需求,有一个怪现象,不知道大家注意没有?从长远的角度看,我们全球的计算机市场现在增速开始放缓了,最近八年,已经到单位数了,再往下计算机就不增了,我们就变成夕阳产业了,有没有这种可能?这会影响计算机的教育,我们还招这么多学生来干什么?他们毕业以后找工作会很麻烦,而且我们的研究是不是也有新的挑战?这是一个非常值得我们深思的问题。我们中国比国外好,就是我们现在还是双位数增长,但是更重要的一个问题,就是我们能不能够把这个趋势逆转,有没有机会逆转它?不要觉得我们已经到顶了,我们能不能够想到,现在我们才刚刚开始,如果刚刚开始,以后的东西是什么,肯定不是我们现在已经看见的东西,现在的东西可能就10%,还有大量的东西发挥出来,而这些发展的东西,很多会由我们今天在座的人发明出来。      9:23

[徐志伟]:第二,看我们中国的市场,科学院经过两年的战略研究,我们有一些结论,第一个结论是,我们的市场可能至少会再增长10倍,有可能会增长20倍。这有一个根本的原因。从我们学科来讲,就是网络计算出现了。网络计算会成为我们计算机的一个缺省的模式,而且从我们学科上讲,我们要从以前人机共生,传统的东西,要扩展为三元世界,就是人类社会和自然物理世界三个东西会连在一起的,连在一起以后有很多非常多的新需求,我们还没有挖掘的,比如说最近很多兴起的社会网络计算,社会计算,就是人类社会和我们“cyberspace”结合以后的新产物,我们看见的东西刚刚开始,包括我们做得很好的厂商,在交流的时候,他们都告诉我们,他们自己觉得,其实还有非常多的挑战和非常多的机遇现在还没有来得及挖掘出来。这对我们中国特别重要,因为我们中国和现在全球其他地方不一样的是,中国现在的IT占国际IT市场的比例是非常小,尽管经过这么多年的努力,我们千万别忘了我们是一个发展中国家,可能在20年之内还是一个发展中国家,我们现在国内有些错误的判断,那个数据是完全错误的,他们认为好像中国快跟美国差不多了,其实根据中国科学院的计算,要到2050年,我们人均IT花费才有可能达到美国今天的水平,所以即使到2050年,我们的信息产业的叫IT“wirefair”这个来算的话,我们还是要跟美国落后50年的,按人均来算。所以我们现在还有非常非常多的机会,这点千万别忘记,因此我们就需要研究这里面到底有哪些东西。      9:27

[徐志伟]:但是我们有一个优点,就是中国有一个特点,我们以后肯定会成为全球信息市场用户最多的,而且有可能经过今后几十年的努力,中国可能会成为全球最大的信息市场。这个市场的推动力有很多可能就是我们在座的人来做的。像我们有好多互联网公司,跟传统的IT公司有一个不同的特点,开始发起的时候就几个人,即使到现在,已经在支持几亿用户的时候,实际上技术人员就几百人。这是互联网给我们带来的一个新的机遇,网络计算带来的新的机遇,完全和以前的生态环境是不一样的,我们怎么利用这个东西,也是我们的一个挑战。      9:28

[徐志伟]:我这儿列了一些数据,现在有一个好处,软件我们国家开始增长了,我们的服务业占的比例也增长了,这些都是我们的结构在开始转型。      9:28

[徐志伟]:下一个我跟大家讲一讲我们计算所的学科发展方面,是我们很多研究生同学特别重视的。我们都在讲分布式计算,网络计算,什么叫网络计算?这些事情不搞清楚,有好多时候大家觉得很奇怪,经常大家就问,百度和Google这样的公司,明明是分布在全国,好多地方都有他们的服务器在跑的,为什么要说他是集中式系统?其实我们讲讲集中和控制就清楚了,什么叫分布式系统,什么叫分散系统,像Web这样的东西和语音集中式的系统有什么不同,科学院的研究,我们的IT好像有三国定律,分久必合,合久必分,大概的周期是15年,也可能长一些。我们语音计算,从集中往下一次分中间的一个阶段,现在还没有完全实现到真正的分,语音计算大部分还是集中提供的,但是有一个原来的服务器可能是不一样的,这里有一些规律性的东西,现在有些人来说“computing”实际上是软件大型机,但是有一个历史的必然性,从这个产业来看。      9:31

[徐志伟]:网络计算前几年炒得比较热的词叫网格计算,网络速度上去以后,很多资源会分到别的地方,科学界叫网格,我们企业叫cloud,我们计算所做的第一方面是网格方面,我列了一下现状,现状主要是两块,在科学界建了很多基础设施,大家可以看看,其中国际上最主要的几个网格基础设施,中国有一个国家网格,上面有各种领域的科学的应用。但是关键问题是,现在我们到了云计算了,云计算正在发展,发展趋势会是什么呢?现在大家都不知道,我们认为,以后很可能,尤其对中国来讲,一个迫切的需求就是怎么为老百姓服务,为我们以后可能会有上十亿的IT用户服务,我们起了个名字叫普惠计算,我们已经开始看到一些基础应用,但是这方面的机会还是非常多的。      9:34

[徐志伟]:我们ICT关注的重点是什么呢?第一、我们要为企业和社会提供思想,提供科学技术方面的研究,还有当然要提供人才。比如说在思想方面,我们最近的一个成果就是刚刚出版的至2050年信息科技发展路线图,其中为计算,普惠计算,尤其是网络计算我们要构建普惠泛在的信息网络,这个是我们今后几十年的一个重要任务和一个研究机会。另外我们也关注计算平台,比如说像我们出去看那个展览的话,有我们的GOS和我们现在的云计算平台,还有一些基础研究的东西。计算所积极参加开源社区,我们今天参加了Hadoop,还有和欧盟合作的Xtreemos,还有OMII这样的开源社区,我们的学术点重在平台软件方面,而且我们关注的是可扩展性,一致性,容错性,局部性,易用性这方面,我们是从计算的模式,尤其是“状态”,这是一个非常重要的概念,在网络计算中,状态到底怎么定义,哪些地方应该是无状态,和有状态的,还有调度,以及怎么编程这方面,我们关注的跟开源社区有些不一样,我们除了要开发这个代码以外,还要着重分析和综合。比如说我举个例子,现在我们的好多网络计算,都受了“Eric Brooklyn”定理的影响,大家都知道,我们的一致性,分区容错性,和易用性最多得到两个,不能全得到怎么办呢?有好多是不满足我们现在的很多需求的,这里面就有非常多的研究问题。而且我们最近还做了一项分析工作,就是云计算面临的七个挑战,今天时间关系我就不一一说了。      9:37

[徐志伟]:还有一点就是我们怎么提高效率,现在的数据中心已经越来越庞大,而且以后还可能会继续庞大,怎么管理这么多东西,成本怎么降低,效率怎么提高,以及功耗怎么降低,这些都是很大的问题。他的利用率实际是很低的,在全世界都有很多的调查,我们从公开的资料就看得见,很多地方调查服务器的利用率数据中心当中只有10%不到的,我们国内有很多地方只有8%,有些大公司,内部的数据中心和服务器的利用率也很低,到底是怎么回事,大家觉得,第一,你再给他塞点进去算就行了,其实问题是你没有办法塞进去了,他看起来是低,一塞进去以后,你的业务就跑不动了。我们右边有个图,我们研究出来的,如果想把他的负载提高,他的响应时间和成功执行的时间会大幅度降低,根本不能满足用户的需求,并不是说,明明是空闲的,你就塞不上去,这里面有很多很多原因,你怎么应对呢?我们计算所也研究了其中一个,就是怎么能够利用我们网络计算的涌现现象提高这个东西。      9:39

[徐志伟]:这个涌现现象和我们计算机科学领域一个局部性是密切相关的,大家知道,计算机系统里面局部性是一个最要命的概念,非常基本的概念,局部性原理,相当于计算机的牛顿定律一样,如果没有局部性,计算机产业就彻底死掉了。现在在网络计算当中有什么局部性呢?我们能不能利用人机物三元世界的涌现现象,这就是我们研究的,比如说在数据方面,我们在研究,假如有很多很多用户都在访问数据的话,他们都是独立的,有没有局部性呢?而且他的数据源来源好多地方,这是一个典型的数据集成问题,有好多好多都是这样干的,我们科学界有,互联网服务都有这样的问题,我们有一个研究结果,就是发现了确实存在一种新的涌现现象,叫请求局部性,然后我们发明了一种新的技术叫请求窗口,大家可以去看上面我们计算所的文章。而且他的效果确实很好,你不用加任何硬件,就是好好利用新的局部性就可以提升他的吞吐力。      9:40

[徐志伟]:还有一个就是关于数据类的,计算类的也有这个问题,现在我们好多调度,计算调度,能够把效率提升上去,我们也做了这样的分散情况,这个方面在经济学界有很多研究,我们这方面还没有这样的规律,就是分布式调度里面,大家也开始有些工作,但是使用这种非集中的方式还比较少。所以我们最后想到了一定这样的话,就可以利用经济学结合我们计算机的算法科学和博弈论game theory做调度,这样的东西我觉得跟我们以后云计算和网络计算有很大的相关性。最后的效果就是,我们确确实实能够大幅度改善这方面的效率,所以,数据中心效率很低。      9:40

[徐志伟]:刚才是偏基础研究的,我们现在正在想把基础研究的结果怎么能够用上去,还有我们也做了很多软件,比如说我们的一个GOS,一个是system software,这个主要用CNgrid的,还有好多用户不愿意自己建一个网格,他想我能不能做一个Gateway用网上的资源,这是很受欢迎的,包括汽车行业的用户也在用这样的东西,这个我们也在全国12个地方部署了,这种HPC的Gateway,还有数据类的,这和Hadoop相关。还有一个我们现在正在发展的就是希望以后我们做一个云计算的平台,能够针对科学计算,大量的数据和各种集成来做的,这个目前我们有些初步的版本了,这个可能是更切合,不光是高性能计算,还有就是数据服务的这样的应用。      9:41

[徐志伟]:我今天的讲话就到这儿为止,我最后想说一句,计算所是国家的研究所,我们的责任是向社会提供思想、技术和人才,我们非常愿意和我们的开源社区,像Hadoop这样的开源社区和很多志愿者一块合作,让我们联合起来,让我们的开源事业越来越进步,能够支撑我们中国的企业,并为世界的开源事业做出贡献,谢谢大家。      9:42

[主持人 查礼]:徐老师的报告非常精彩,下面本来应该是由咱们雅虎的Eric来做报告,但是他现在正在接受采访,我介绍一下我们大会组委会的成员,因为他们在这个会议当中做出了很多工作,非常的辛苦。每个人对这个活动做一下展望。      9:42

[王守彦(百度系统部项目经理)]:之前我也参加过两次的Hadoop沙龙,最早只有十几个人,到第二次有五六十人,现在有好几百人,我希望中国的开源社区能够发展得越来越好,越来越壮大,这样的话我们整个技术实力也会得到很大的提升。      9:43

[邵铮(Facebook公司资深工程师)]:大家好,我今天也是第三次来到Hadoop的会场,非常高兴继续介绍相关的一些技术,我特别希望中国的这些研究院以及公司更多的加入开源社区,能够开始对开源社区做出贡献,同时从开源社区当中获得更多的回报,在美国,开源这个方式或者说Open这个方式已经得到了非常非常大的应用,并且对整个行业各个公司都起到非常大的促进作用,在中国我感觉刚刚开始,希望大家一起努力往这个方向一起发展。      9:43

[韩轶平(雅虎北京全球软件研发中心)]:我是今年9月刚刚回到北京加入雅虎北京研发中心的,在此之前我在雅虎美国的总部工作,其实我跟邵铮以前是同事,我们两个也是Hadoop坚定的支持者和推动者,我记得,我第一次参加Hadoop在中国的活动的时候,邵铮第一次参加这个活动之前,我特地到他家去,我们做了差不多两个小时多的彻夜长谈,我们当时惴惴不安,第一次在中国搞这样的活动,多少人会参与,我后来又跟他彻夜长谈,谈了两个小时,看到很多人参加,今天第三次活动的时候,已经到了一个空前的规模,我们真的很高兴,包括我这一次,我加入北京的雅虎研发中心,我一个很大的任务就是说,在中国也好,在雅虎北京也好,推动云计算和Hadoop开发和应用的工作,我希望大家多多的参与进来,参与这个应用,参与开发,参与到开源社区里来,谢谢大家。      9:46

[郑皓]:我很兴奋的看到,第二次是第一次的二倍,第三次是第一次的三倍,这样的发展我们很荣幸请到很多从国外的对Hadoop有直接影响的同事,我希望利用这个机会,能促进国内和国外在云计算开发应用上的交流,我感谢各位今天能够来参加,另外几位同事讲了很多了,我不再多提了,谢谢。      9:47

[Eric Baldeschwieler]:首先谈一下开源社区,Hadoop怎么在雅虎应用,这幅图展现的是Hadoop大家贡献新的功能的变化,这是很令人振奋的,这几年以来增加的贡献的数量是一种几何级数的增长。这个图展现了除Hadoop核心模块以外还包括了一些扩展功能的模块。所以这个图也显示出了不仅Hadoop本身很有价值,在上面建立整个生态系统都是相当有影响力的。这幅图展示的是在Hadoop开源社区邮件列表里面的邮件数量的变化,我们的目的不仅仅给大家一个免费的软件使用,更多的希望整个社区中的开发人员参与到开发和讨论中来。下面这一页展示的是Hadoop在整个业界使用的增长情况,除了Yahoo以外有很多的公司已经开始使用了。这个是从Apache列表中取得的,还有很多公司没有在列表上体现,中国有像百度这样的公司也在使用。      9:48

[Eric Baldeschwieler]:下面我讲一下在雅虎中我们如何使用Hadoop。雅虎是世界上最大的Hadoop用户,也是Hadoop最大贡献者。雅虎是第一个深入使用和开发Hadoop的公司。我很高兴看到Hadoop有今天的成功,我们提供了一个Hadoop分发版本给大家,这个版本和雅虎内部使用的本本完全一致。所以大家使用这个版本的话地我们能在雅虎内部做的一切事情大家也可以做。今天我们在美国、北京和印度、有很大的研发队伍。最后一点我要提的是雅虎并不向外出售Hadoop的服务,我们只是使用Hadoop为公司内部建立服务。我们投资Hadoop的原因,我们认为Hadoop对雅虎的公司发展有支持意义。      9:52

[Eric Baldeschwieler]:下面这幅图展示的是目前雅虎内部最大的Hadoop应用的规模,我们大概现在有超过一万个CPU的单个集群在使用Hadoop,有超过500个研发人员在使用Hadoop。同时雅虎也是Hadoop最大的测试者。在我们向外分发雅虎Hadoop版本之前,我们会进行多层次测试,以确保它的稳定性。我们有一组专门的集群用来测试Hadoop性能和稳定性。我们还有一个2500个结点的集群专门用来验证Hadoop新概念和新的设计。在雅虎内的任何人,可以自由的使用这些机器。我们的大部分机器是用于研究和开发的集群,最后我们还有很大一部分机器是用作生产运行的集群。所以大家所见到的Hadoop分发版本是在各个层次的集群上面已经经过运行和验证以后的。      9:53

[Eric Baldeschwieler]:我们也是Hadoop最大的贡献者。从历史上讲,72%的Hadoop的开发是由雅虎贡献的。我们很高兴的看到,随着时间的推移,雅虎的贡献率正在降低,这也意味着从其他的机构所来的贡献正在逐渐的增大。我们也是Hadoop贡献者的最大雇主。      9:54

[Eric Baldeschwieler]:最后这是Hadoop的发展历程。2004年Hadoop的最初版本开发完成了,2005年的时候,转移到了一个新的架构上,2006年的时候,Apache的Hadoop项目正式建立。我们在不断增加Hadoop的可扩展性,使得他能够用于越来越大的集群上。2006年的时候我们有500个机器在42小时排序了500T的数据。2007年,我们使用900个机器排序同样的数据只用了7.8个小时。在雅虎内部我们当时已经有两个1000台机器的集群。      9:56

[Eric Baldeschwieler]:为什么雅虎要使用Hadoop,雅虎有每月超过5亿的用户来访问,我们有数以万亿计的访问,有大量的数据,雅虎所做的很多事情都依赖于对大含量数据的分析。我们需要对数据及时的进行分析,在数据中挖掘规律和特征。      9:58

[Eric Baldeschwieler]:我们希望能够在雅虎的各个部门之间共享数据和计算架构。随着我们不断的投入,硬件的投入,我们也希望有一个架构能够处理硬件的失效等等问题。这是雅虎的主页,虽然这些主页上的数据并不是直接从Hadoop上取得的,但是这些数据的处理是在Hadoop上完成的,所以你在雅虎主页上面进行搜索或看到的广告,这些服务的后台都是由Hadoop上的应用所完成的。所以雅虎Hadoop集群有很大一部分是做相关的后台处理。现在我们也用Hadoop进行内容处理、做垃圾邮件过滤,内容优化和内容管理等等,而雅虎所提供的内容本身也是存储Hadoop上,所以Hadoop在雅虎是得到了全面的应用。      9:59

[Eric Baldeschwieler]:这里是一些例子,在雅虎所用的一些大规模的Hadoop应用中,Webmap是雅虎最大的Hadoop应用,今天Webmap70个小时处理超过490TB的数据,Webmap的数据在不断增长中,这种增长不仅仅是数据量的增加,也包括算法复杂性的增加,我们惊喜的看到Hadoop能够很好的处理复杂度和数据量的增长。      10:1

[Eric Baldeschwieler]:另一个例子是我们使用Jim Gray排序的benchmark,现在我们也可以在62秒之内排序1TB的数据。我很高兴的来展示随着Hadoop性能不断增长,去年我们也用了16.25个小时排序了一个TB的数据。今天雅虎最大的Hadoop集群拥有6000个结点。有3200个内核,16TB的硬盘。      10:3

[Eric Baldeschwieler]:下面介绍一下Hadoop对于生产运营的影响。很多人认为Hadoop能够减少硬件投资的开销,实际Hadoop还能够提高开发和研究的效率。从这个意义上讲,Hadoop对最后公司运营产生的效益甚至要更大于减少硬件投资。Hadoop能够提高从研发到生产的转移的效率,Hadoop也被证明了容易学习,使得我们不需要有专门的技术人员来连接研究和生产之间的差距。      10:4

[Eric Baldeschwieler]:为什么Hadoop有这样一些生产效率的优势?第一、雅虎所处理的数据规模决定了我们不可能把研发在台式电脑上进行,只能在大规模集群上进行。这就使得集群的管理成为一个很大的挑战,因为科学家可能会要求能不能给我几百个机器,而很多这样的要求相互之间的对于资源的竞争,对于管理是一个很大的挑战。同时科学家也需要花很多时间去寻找到底如何使用这个集群,如何使用计算平台,Hadoop的出现,使这些工作大量减少这方面的开销,使得他们把精力更集中在研究上。以上的这些根本上改变了雅虎的科学家们如何进行研究和开发。我们的研发人员不需要把知识转移给开发人员,他们可以直接开发有生产品质的产品。他们可以使用高级语言直接开发Java、Python、Pig。      10:6

[Eric Baldeschwieler]:下面是一个提高生产效率的例子。我们的搜索助手在用户输入关键词的时候,给出一些建议和提示,搜索助手所使用的数据库是在Hadoop上建立的。这个数据库是从雅虎过去三年的搜索记录中生成的,在使用Hadoop之前,我们的开发团队需要26天的时间去生成这个数据库,在使用Hadoop之后同样的工作只需要20分钟完成。这就意味着我们的研发人员可以在数据上进行实验,然后快速的建立一个新的版本,而不需要等待很长时间。      10:7

[Eric Baldeschwieler]:过去的版本使用C++语言书写,而如今他们用Python书写更加简单。从开发时间来讲,C++的版本需要2—3周时间开发,而现在的版本只需要2—3天完成。      10:9

[Eric Baldeschwieler]:另一个雅虎的生产效率提高的来源是Pig,今天雅虎内部的Hadoop的任务有超过一半是使用Pig书写,我们的研发人员现在只用1/16的开发时间,Pig确实要更多的时间,要两倍的时间去运行这些任务。但是我们的研发人员更关心的是他们研发的效率而不是这个程序运行的效率。因为他们认为,如果他们能够把产品的算法提高20倍的效率,他们就能够使这个最终的运行时间提高10倍。并且最新版本的Pig性能正在不断提高。      10:10

[Eric Baldeschwieler]:下面这个例子展示Pig为什么容易使用,左边是用Java使用的,右边是用Pig使用的,大家可以看到,Pig简单很多。下面我谈一下我们对Hadoop的一些改进。其中一个我们的工作重点是提高Hadoop的向下兼容性,向下兼容性使得新版本的Hadoop的部署变得更容易,      10:12

[Eric Baldeschwieler]:其次我们对文件系统进行改进,增加了同步和增添两项功能。第三、我们改进了任务调度器,Hadoop0.20包括了新的任务调度器。另一点是我们改进了Hadoop的安全性,最后我们提高了Hadoop的性能,提供了新的banchmark和工具改善Hadoop性能。      10:12

[Eric Baldeschwieler]:第二,关于Pig,我们为Pig增加了SQL和metadata。我们增加了列存储和多查询的优化。下一个是关于Oozie,是一个新的工作流和调度的程序。      10:16

[主持人 查礼]:感谢Eric。现在是休息时间。      10:38

[主持人 查礼]:下面是由中国移动黄晓庆院长来做精彩报告,请大家欢迎。      10:46

[黄晓庆]:我就用英文讲,没问题吧。没问题。      10:47

[黄晓庆]:之前我们听到了雅虎在Hadoop上的贡献,我们觉得很让人印象深刻,我先讲一下中国移动在Hadoop上面的工作。不仅是技术上的研发,也讲一下商品化的情况。我讲一下中国移动和Hadoop和开源社区之间的关系。      10:48

[黄晓庆]:我们的项目叫做大云,我们认为云应该是大的。我们的目的是为了建立一个系统,为了满足我们内部对高性能计算的需求。我们有36TB的数据,同时正在快速增长中。      10:49

[黄晓庆]:第二点我们所关注的是可能会利用这些技术来建立一个互联网的服务平台,我们希望能建立一些云的服务,能够出售给公众。最近我们刚刚发布了大云的1.5版本,是基于稳定的Hadoop版本。      10:49

[黄晓庆]:我作为云计算国家委员会的成员,也希望这个能够为国家网络做出一些贡献。我们将今后的业务分成三个方向,第一、基础架构。第二部分是平台级的服务。这一部分我们会着重于收费、服务等方面。基于这两方面之上,我们希望能提供“软件即服务”。我们的目的是帮助中小企业来减少他们的IT成本和复杂性。我们也同时提供办公自动化的解决方案,我们希望将来我们可以利用云计算的技术来实现这些设想。      10:53

[黄晓庆]:这是我们大云的架构图。我们使用Xen作为底层。在此之上我们实现了增强的DFS作为存储平台,过去我们是建立服务,软件,并交由托管业务。我们希望新的平台能够完全根本性的改变Internet工业的格局,不需要购买硬件设备和开发软件,事实上国际上有很多互联网企业已经是基于这个模式运行。      10:59

[黄晓庆]:在这儿我会讲一下我们在Hadoop上做的一些工作。我们建立了一个管理系统,我们希望能够成为中央管理模块,叫做CloudMaster。我们也花了一些精力解决Hadoop现有的一些问题。我们增加了多名字结点,我们还进行了一些数据挖掘和搜索的开发。这不仅仅可以被应用于互联网行业,更可以广泛应用于广义的数据挖掘方面。在此之上大家可以看到,我们建立了很多应用。今天我们有一个256个结点的Hadoop系统,共有1024个CPU,这是一个研究性系统,我们希望明年建立更大的用于生产的集群。我们对比了传统的高性能计算解决方案和Hadoop,同样的成本下,我们可以得到1—2倍的性能增加。      11:0

[黄晓庆]:我想特别谈一下数据挖掘这个应用,我们开发了一些基于Hadoop的算法,其中有一些是经典的数据挖掘算法,所以我们已经将他们使用在很多实际生产运行中。我们试图挖掘用户关系,通过用户的日志,和传统系统相比,这个系统使用了1/6的成本实现了6倍的性能。      11:5

[黄晓庆]:下一点我要谈的是HDFS的名字结点的扩展。多数公司认为单一名字结点已经足够,但是对于通信企业来说,这就是一个问题,所以我们设计了一个多名字结点的架构。当然我们增加名字结点会增加成本,但是你所得到的是高可靠性和增加的性能。我们希望能够和Hadoop的开源社区进行交流,将这一部分贡献给大家。我们刚刚开始和开源社区进行交互,我希望能够更多的增加对开源社区的贡献。我们希望跟雅虎增加合作,同时我们也愿意很积极的参与到开源社区的开发中。      11:7

[黄晓庆]:下面是我对开源社区的一些建议。我们见到了Hadoop用户在飞速增长,我们希望有一个更全球性的开发贡献。我很高兴看到72%的贡献来自雅虎,但是我们认为对Hadoop长远发展这并不是一个最好的现象,我们希望用Hadoop的用户都有一些贡献。      11:8

[黄晓庆]:第二、我希望能够建立一些基于开源社区的云计算规范标准,使得不同的应用能够遵循这些标准从而不需要只绑定在一个平台上。一个例子是亚马逊的云计算应用,用户可能希望能够运行在另一个非亚马逊的平台上。另一点是我们希望有更多的社区开发交流活动。包括大型的会议或者是小型的研讨会。      11:12

[黄晓庆]:最后一点,中国移动会继续支持Hadoop in China的大会。中国移动将会赞助下一届的Hadoop大会。      11:12

[主持人 查礼]:下一个报告是Facebook的邵铮来做。      11:13

[邵铮]:谢谢大家,我非常高兴今天第三次来到这个大会上,来给大家分享一些Hadoop使用的经验和体会,刚才黄院长讲到Hadoop需要大家的支持和大家的贡献,今天我就想以Hive为一个例子,在Hadoop之上进行开发贡献的一些体会。      11:15

[邵铮]:下面是简要的一个时间表,这个时间表记录了Hive发展过程当中三个主要的阶段,第一个阶段是准备的阶段,从2007年中开始,在Facebook生产的环境当中,传统的数据仓库的解决方案,我们发现非常多的挑战,这也是为什么我们当时在分析比较各种各样的Solution后,把Hadoop作为方案的基石。第二个阶段是08年开始的,第三个阶段是去年9月份开始的。下面我们一一来介绍一下两个阶段所经历的主要过程和一些决定。      11:16

[邵铮]:2007年中的时候,Facebook遇到了数据仓库的可伸缩性问题,当时我们数据非常大,这张图是我们最最简单的一个系统结构,我们当时大约有3000台的HTVBserver,同时接受用户的请求,同时产生大量的“拉五”的数据,我们记录在第三方提供的这种大型的网络存储设备上,我们使用的系统非常非常的稳定,也非常非常昂贵,存储量非常大,但是不是特别大,每个机器存储量50—100个TB这样的一个量级,同时我们有很多数据存储其中,所有做数据处理的时候,数据仓库通过20台我们叫dataWorkers来实现的,当时出现问题就是我们发现需要使用超过20小时时间,才处理一天的数据,可见不久的将来,处理数据就会超过一天,这时候我们就没有办法跟上应用的需求。这个时候我们就开始分析我们自己公司的一些情况,然后在各个不同的trace当中选择自己的一个Solution,当时考虑几个需求,第一个是可伸缩性,我们数据增长量非常非常快,当时预计是5—10倍之间,这个可伸缩性要求非常非常高,我们希望这个系统支持几百台到数千台机群的规模。第二、开放性,或者说灵活性,因为我们希望这个系统能够非常容易加入新的功能,这样的话我们在遇到我们新问题的时候,很容易修改原来的Solution来解决。第三、时间,时间非常紧张,我们希望尽快推出这样一个系统满足我们的业务需求。      11:21

[邵铮]:当时主要的选择有四个,第一、使用第三方专有的系统,或者我们可以从头开始,来创建一个新的系统,或者我们就从Hadoop之上,或者从其他的入手。我们当时工程师少于10个工程师,大部分的工程师的时间都是用来支持线上的一些服务,就是我们的一些ETL,这些数据怎么把他从在线的系统取下来,放到我们数据仓库当中,怎么从中产生一些数据的报告。我们确实也在不停的想要招聘更多的工程师,但是招聘更多人,并不是非常容易,特别是找到很合适的人,基于这些因素,我们做一些分析,首先我们排除第三方专有方案,首先他非常昂贵,并且不是很灵活,我们想增加新的功能,需要和第三方厂商联系,许多很多的时间才能加入新的功能,并且大多数第三方厂商,他们考虑的应用方案是给中小型的公司使用的,针对稍微大型的公司,很难满足我们的需求。      11:22

[邵铮]:第二、我们如果从头开始的话,将要花费巨大的时间,这也是我们一开始排除的方案,我们比较Hadoop和其他的方案的时候,它的性能可能不是最好的,他的潜力是最高的,因为这些原因我们最终选择了Hadoop这样的方案。当时我们使用0.15的这个版本,当时遇到很多bug,都修复了,但是没有遇到大的问题,Hadoop我们感觉主要的优势是两点,第一、他的可伸缩性非常强,雅虎公司对Hadoop不遗余力的支持,一直到现在,社区也在不断的扩展,更多的公司加入这个社区,讨论非常热烈,有很多公司在使用这个系统,也使我们增强了我们使用这个系统的信心。所以我们认为Hadoop有非常大的潜力。      11:25

[邵铮]:当然也有一些缺点,当时认为Hadoop性能还有一些问题,我们认为这个性能不是大的问题,Hadoop design很容易解决的,比如说使用Java language都不是非常难解决。第二个问题,用起来不是非常方便,如果每个新的员工学习是非常大的问题,当时我们进行Hive的一些实验,主要就是因为我们公司的内部除了这个工程师以外,还有一些做数据分析的,他们也希望使用这个系统,他们只会使用language,在Hadoop之上,有更高层次的language,没有支持的,我们开始进行最简单的使用,当然不是使用language,但是非常非常有用,生产环节当中有一些环节使用我们这个系统了,这使得我们更加相信这是一条正确的道路,所以我们从那个时候开始,对Hive project做了更长远的规划,投入更多的资源去开发。      11:29

[邵铮]:当时我们考虑的主要的优先级有两条,一个是我们在一开始的时候,就希望能够得到一个比较好的这样一个设计,因为好的设计,能够使得我们project走得更远。当时基于这两点的考虑,我们没有把project直接给open source。我们当时差不多有10个工程师在FB内部,来进行这些设计和开发,用了大约将近6个月的时间推出了Hive的第一个版本,当时有一些这些设计,其实我们也是通过一些渠道open source committee,像邮件列表或者是一些会议,像open source committee有一些展示,但是没有让它加入讨论,这样会使我们project进度会变慢,2008年9月份的时候,第一个可用的版本,是给Hadoop 0.17版本用的,为什么我们把Hive用于open source呢,对于一个公司来说,本身工程师的资源都是有限的,要支持一个很大规模的项目,很不容易,而Hive project是比较普适的project,不管是建议和意见也好,还是使用的经验也好,还是直接有代码的也好,对Facebook也有好处,FB我们一直把自己作为一个技术公司来对待,我们要树立在技术行业里的形象,Hive进一步加强了我们公司这个形象,这个结果导致我们招聘新员工的时候,有很大的好处,很多员工,很多这种我们公司招聘的人,他们事先都知道,Facebook在Open source领域的一些贡献,新的员工加入我们公司的时候,他们很可能已经学会了使用Hive这个系统,加入公司直接开始工作,而不需要一些额外的培训,总体来讲大大减少我们在研发方面的费用。      11:32

[邵铮]:对于其他公司来讲,Hive是一个比较通用的这样一个solution,对其他公司也可以节省大量的资源,对学术界来讲,Hive已经成为一个研究的平台,已经有若干篇文章发表在世界顶级的会议之上,我们认为这样一种举动可以解决社会当中的重复劳动,提高社会的资源利用率。      11:33

[邵铮]:下面就是Hive在2008年9月,核心的系统一定要非常简单,并且是松散型的结构,我们把系统的接口全部都open,这样利用其他公司和个人加入开发的过程,来做competition,同时加入的时候,我们也同时考虑公司内部的需求和整个社会的需求,在两个之间做一个比较好的权衡,代码库存储Facebook内部的代码只是在Apache代码库的拷贝,我们定期的把Apache流到Facebook,这样我们可以控制新的功能,每次我们移到新的版本的时候,都需要做很多很多测试,Facebook也有一些专有的课,和我们业务相关,这些课和Hive有关系,但是这些课只有FB内部才有。另外一方面,关于讨论以及一些开发到底是怎么样去组织,我们也是大量采用来组织讨论,这样的好处,大家都可以很容易的看到我们Hive发展的过程,后来人,新加入的人,很容易了解Hive当初做一些设计的时候,当时的考虑是什么,我们发现这一点是非常非常的好。      11:36

[邵铮]:内部也有一些工具,但是内部的工具,Facebook内部的工具,只是用来做FBFacebook内部评测的使用,这些信息没有必要,我们也不会把它公布到外面去,对外面的公司估计也不会有什么帮助。对于新用户,加入到Hive这个领域的新用户,我们通过邮件列表和其他一些方式提供一些支持,现在越来越多有比较熟练的这些Hive用户帮助新用户解决问题,逐渐形成了正向的正反馈。      11:37

[邵铮]:现在我们再来检查一下Hive到底是什么样的情况,在今年夏天的时候,我们对Hive的性能做一个评测,评测的结果。我们从Open而source当中超过有“地外了铺”加入了Hive的开发,提供代码超过100个,还有很多很多decision,所有这些都是验证了我们当时做Hive的时候,把他open source加入我们的开发,并且在接受方面,我们公司招聘的时候,新的员工已经了解到我们的系统,对于学术界也起到了一些促进的作用,下一页我们看学术界这方面的情况。      11:39

[邵铮]:我们写了一篇文章,引用Hive的文章已经有三篇,都是比较顶级的会议。我们想通过这些就可以显示出我们当时Open source的目标已经得到很好的实现。      11:39

[邵铮]:公司内部来说,这个可伸缩性的问题也得到了比较好的解决,我们现在有600台机器,每两周我们会加入一些新的机器,具体一些细节我们会在下午有一个具体的介绍,对于我们系统结构主要的改变,原来20台机器改成600台机器的Hadoop。      11:40

[邵铮]:纵观这个过程,我们体会到,在Hadoop committee当中,和大家协作有三个阶段,一开始是使用Hadoop这个软件,因为必须,我们首先使用这个软件,感觉这个软件对我们的公司,或者是学校有帮助,我们才更有兴趣去加入Hadoop committee,使用Hadoop这个软件以后,会发现有一些问题,发现这些问题我们就可以加入,慢慢简单做一些开始,对代码进一步熟悉,熟悉Open source管理方式,以后有需求的时候,我们可以开始一个新的项目,这个项目可以基于Hadoop之上,像这张图上所画的,我们并没有从头开始,把整个系统都搭建起来,我们基于已有的系统进行搭建,这样的方式使我们集中精力,把一小块东西做好。另外一点想讲的,大家可能发现Hive和Pig有一些相似之处,但是其实在设计上还是有一些底层的区别,在open source里面也不是唯一的。      11:41

[邵铮]:最后这个结论就是,我们非常高兴一开始在2007年中的时候,我们就做了一个非常非常好的决定,我们当时接受了Hadoop这样一个solution,2008后期,一起来开发这个项目,我们非常希望能够和open source committee一起合作,希望更多的人加入这个圈子当中,如果整个过程当中有一些问题,欢迎会后和我联系,这个大概就是我今天讲的所有的东西,谢谢大家。      11:41

[Christophe Bisciglia]:我今天要讲一下Hadoop的历史以及怎么样在Hadoop当中来帮助用户来使用Hadoop这个系统,这个是讲Hadoop相关的一些历史,2004年第一篇Hadoop相关的文章,在2005年,Hadoop的开创人开始创建Hadoop的原形,2006年Hadoop可以成功的运行在20代机器的小型机上。2006年的时候,雅虎开始正式向Hadoop项目来投资,2007年雅虎在2000台机器上运行Hadoop这样一个系统,2008年雅虎使用Hadoop在公司内部正式取代正式的系统。大家所感兴趣的是Hadoop三个大方面,可靠性,可扩展性和易用性。Hadoop在近期之内,有一些新的发展,就是有一些新的子项目,比如说像Hive是使用SQL这样一种语言来操作数据的。Pig是另一种数据分析的语言。      11:43

[Christophe Bisciglia]:在今年年初的时候,Cloudera公司做了一个Sqoop。这个工具是用来从数据库当中获取数据,把它下载到Hadoop之上,这个工具可以有很强的可扩展性,用户可以在这个工具之上加入新的功能,最近我们传统型一些关系型数据库的厂商开始使用Hadoop,大家发现,map reduce这样一种方式用来做数据分析非常的好处,Hadoop是map reduce的标准,Hadoop被全球很多的公司所采用。在美国全国到处都有使用Hadoop的用户群。Hadoop已经不只是给因特网公司使用的工具,已经有越来越多的电信行业的企业以及金融公司开始使用Hadoop。      11:46

[Christophe Bisciglia]:使用Hadoop主要的挑战是,开发Hadoop难度非常大,部署Hadoop难度也非常大,管理Hadoop的集群也难度非常大,教会新用户使用Hadoop软件难度非常大。Cloudera认为开发Hadoop之上的应用应该非常简单。Cloudera做了一个Hadoop的发布版本,这个版本使用的授权协议是Apache2,稳定性比传统的Hadoop有了很大的提高。他们有多个发布版本,有新的版本支持新的功能,也有老的版本更加稳定。第三是写一份软件可以在多个不同平台上运行。他们支持的第一个发布版本CDH1是基于Hadoop0.18.3版本。第二版本CDH2最近刚刚发布,第二版本其中加入了“H bis”。开源和micro是他们的重点。这张图上显示的是Cloudera的使用量、下载量,现在75%的Hadoop新用户使用Cloudera的版本。      11:48

[Christophe Bisciglia]:下面是主要使用Hadoop的新公司。原来我们有雅虎和Facebook,现在我们有VISA,Amazon公司,ebay、NTTKDDI,中国移动,这些都是电信行业使用Hadoop的公司。电信行业使用Hadoop来了解用户使用他们电信网络的情况,优化他们的网络配置,美国的供电局使用Hadoop来分析他们电网的使用情况。金融公司包括VISA和JP摩根使用Hadoop分析他们的股票以及其他的一些数据。零售商也开始使用Hadoop,我们已经知道像亚马逊和ebay这样的网站开始使用Hadoop。      11:51
[Christophe Bisciglia]:第五、关于生物公司,生物公司使用Hadoop的技术,来对人体的DNA测序,分析人体的DNA数据。从这些新用户之间的共通点中,我们发现Hadoop的使用是从开发者开始,是从工程师开始,因为Hadoop本身是免费的,工程师可以很容易拿到很多的源代码,可以试用,然后直接来解决公司问题,而不需要公司高层的批准。但是管理Hadoop技术的人员在使用Hadoop过程当中遇到很多困难,因为他们并不熟悉Hadoop这样的软件。      11:52

[Christophe Bisciglia]:我希望把Hadoop构筑的更好用,但是除了开发者以外,除了工程师以外,其他的一些人也想使用Hadoop上的应用,比如说数据分析员,或者商业分析人员。      11:53

[Christophe Bisciglia]:对于新用户来说,Hadoop主要的挑战有,第一稳定性,稳定性的重要性大大大于新功能的重要性,第二、Hadoop与现有系统的整合和结合非常重要,因为只有这样,大家才能把原有的系统和现有的新系统结合起来,对业务提供更好的帮助。      11:54

[Christophe Bisciglia]:Cloudera制作Hadoop版本是希望能够通过这样方便用户使用Hadoop,安装Hadoop,维护Hadoop,今天下午Cloudera另一个员工会讲解Cloudera所做的一个软件叫Hadoop桌面,可以用来很方便管理Hadoop,也给Hadoop应用的开发人员提供很大的方便。      11:55

[Christophe Bisciglia]:下面是Hadoop桌面的一个例子,这个桌面和传统的Linux以及其他一些桌面很相似,所以使用起来非常容易上手。这几个窗口显示的是在Hadoop上运行的任务,每个任务的详细信息以及这些任务目前执行的状态。在这个报告当中,我们不会仔细介绍Hadoop桌面的东西,因为下午有更详细的介绍。但是我想提到的是,Hadoop桌面这个软件本身是开放的,他有很多应用程序开发的接口,大家可以在Hadoop桌面之上继续开发。刚才那页显示的是Hadoop桌面用来显示Hadoop文件系统的界面,这一页显示的是Hadoop桌面用来调试和编写Hadoop代码的界面。Hadoop桌面和windows的资源管理器非常相似,用户可以通过Hadoop桌面上传和下载文件,用户可以使用这个软件直接查看文件的内容,这一页显示的是Hadoop桌面用来调试和编写Hadoop代码的界面。      11:57

[Christophe Bisciglia]:Hadoop桌面和windows的资源管理器非常相似,用户可以通过Hadoop桌面上传和下载文件,用户可以使用这个软件直接查看文件的内容,这一页显示的是当前的map reduce的界面,而这一页显示的是使用Hadoop桌面查看map reduce的状况,我们可以点击上面的链接获得更加详细的情况,这页显示的是如何使用Hadoop桌面来调试程序。      11:59

[Christophe Bisciglia]:Hadoop桌面当中还有一个功能,可以监测集群的健康状态,我们使用图形来显示集群的健康情况,图中每一个绿点表示一个健康的机器,每一个红点表示一个不健康的机器。Hadoop桌面监测机器的功能非常非常开放,有继续开发的接口,让用户加入新的功能。现在界面显示的是任务设计器,任务设计器允许用户设计三种不同的任务,map reduce、Pig、Hive,我们可以想象,使用这个界面可以很容易的设计一个数据挖掘的算法,对这些技术不是很熟悉的用户,可以直接使用这个界面来设计他们所需要的数据分析的任务,然后只要轻轻点击一下,就可以让这个任务在Hadoop的集群上运行。      12:0

[Christophe Bisciglia]:这一页是关于Hadoop桌面的一些细节,Hadoop桌面是只在Cloudera发行版本上能用,Hadoop桌面可以在你自己数据中心的集群上运行,也可以在亚马逊的集群上进行。Hadoop桌面所使用的桌面管理器是开源的,Hadoop桌面并不想替代命令行的工具,而是一个非常好的补充。熟练的Hadoop使用者将继续使用命令行,但是对于新用户或者是非技术性的用户Hadoop桌面会是一个很好的选择。      12:2

[Christophe Bisciglia]:我最最感到兴奋的是,Cloudera的Hadoop桌面的API,Hadoop桌面的架构正在逐渐的稳定下来,我们正在与一些合作伙伴一起开发新的Hadoop上的应用,我们希望能够使用一个单一的接口来概括这个社区当中的创新。API将会在将来的数月之内完全开源,如果你们想了解更多的信息,可以给以上的Email地址发信,我会及时的告诉你最新的进展。      12:3

[Christophe Bisciglia]:下面一页显示的是几个链接,如果你想免费获得C的Hadoop版本只需要走到第一个链接。我们公司提供免费的在线的Hadoop培训,这是页面上第三个链接。用户可以在线观看Hadoop培训教程,并且可以在在线的使用Hadoop来进行联系,第四个链接是Cludera的链接,非常感谢与会的各位嘉宾和组织者。      12:4
[主持人 查礼]:上午的会议到此结束。谢谢!      12:6 

darcy

unread,
Nov 18, 2009, 1:16:38 AM11/18/09
to tt...@googlegroups.com
Q,发的是乱码?这是个啥会啊?


发件人: grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163...@googlegroups.com [mailto:grbounce-znzgnwuaaadgdkscude6f9zvtgzmsbin=darcy007007=163...@googlegroups.com] 代表 Q
发送时间: 2009年11月18日 11:55
收件人: ttnn
主题: Hadoop中国2009云计算大会

浜戣绠椼€乭adoop銆乵apreduce銆佹暟鎹粨搴撱€佹暟鎹垎鏋?...

杩欎簺璇嶆槸浜ゆ潅鍦ㄤ竴璧风殑锛孊I鐨勫簳灞傚熀纭€鏋舵瀯鏄惁姝e湪鍙戠敓涓€浜涘彉鍖栵紵瀵逛簬閭d簺搴曞眰寮€鍙戞妧鏈汉鍛樻潵璇达紝鍦ㄦ湭鏉ヨ嫢骞插勾鍐咃紝鎵€闇€鐨勬妧鑳芥槸鍚﹂渶瑕佹敼鍙橈紵...

浜戣绠楄窡鏁版嵁绠$悊鐨勫叧绯婚潪甯哥揣瀵嗭紝浜掕仈缃戣涓氭槸灏濊瘯鏂版妧鏈殑鍏堥攱锛岀櫨搴︺€侀樋閲屻€亂ahoo銆侀潪姝讳笉鍙?..浠栦滑灏濊瘯杩欑鎶€鏈殑鐩殑澶у涔熸槸涓轰簡娴烽噺鏁版嵁瀛樺偍銆佹暟鎹垎鏋愶紝鍙互鍏虫敞鍑犱釜鍙戣█浜虹殑鍙欒堪銆?/div>
9:58 yahoo鐨勭洰鐨?/div>
11:5 绉诲姩澶т簯鐨勬寲鎺樻寲鎺?/div>
11:21 闈炴涓嶅彲鐨勭敤娉?/div>
11:51 cloudera鐨勫簲鐢ㄨ涓?/div>

鍙﹀弬鑰冨叾浠栧嚑涓窡姝ょ浉鍏崇殑璁ㄨ锛?/div>

------------
Hadoop涓浗2009浜戣绠楀ぇ浼氾紙瀹炲綍锛?/div>
鏉ユ簮: Linux璁哄潧 銆€鏃ユ湡锛?2009.11.15 15:25銆€(鍏辨湁0鏉¤瘎璁? 鎴戣璇勮
Hadoop涓浗2009浜戣绠楀ぇ浼氾紙瀹炲綍锛壜?/div>


鏃堕棿锛?009-11-15 8:0:0
鍦扮偣锛氫腑鍥界瀛﹂櫌璁$畻鎶€鏈爺绌舵墍
涓绘寔浜猴細鏌ョぜ
鍢夊锛?/div>
寰愬織浼燂紙涓浗绉戝闄㈣绠楁妧鏈爺绌舵墍鎬诲伐绋嬪笀锛岀爺绌跺憳锛?/div>
Eric Baldeschwieler 锛圴P of Engineering, Hadoop Development锛?/div>
榛勬檽搴嗭紙涓浗绉诲姩閫氫俊鐮旂┒闄㈤櫌闀匡級
閭甸摦锛團acebook inc.璧勬繁宸ョ▼甯堬級
Christophe Bisciglia 锛圕loudera鍏徃鍓€昏锛岃仈鍚堝垱濮嬩汉锛?/div>
閭佃緣锛堢櫨搴︾郴缁熼儴鎬荤洃 妗嗚绠楁帹杩涘皬缁勭粍闀匡級
閮戠殦锛圱echnical Director锛岄泤铏庡寳浜爺鍙戜腑蹇冿級
鏌ョぜ锛堜腑鍥界瀛﹂櫌璁$畻鎶€鏈爺绌舵墍缃戠粶閲嶇偣瀹為獙瀹わ紝鍓爺绌跺憳锛?/div>


[涓绘寔浜?鏌ョぜ]:澶у涓婂崍濂斤紒棣栧厛浠嬬粛涓€涓嬶紝浠婂ぉ鍒板満鐨勫槈瀹炬湁锛氫腑绉戦櫌璁$畻鎵€鎬诲伐寰愬織浼熷厛鐢燂紝闆呰檸杞欢寮€鍙戝壇鎬昏Eric Baldeschwieler锛屼腑鍥界Щ鍔ㄩ€氫俊鐮旂┒闄㈤粍鏅撳簡闄㈤暱锛岀櫨搴︾郴缁熼儴鎬荤洃閭佃緣鍏堢敓锛岄泤铏庡寳浜爺鍙戞€荤粡鐞嗗紶鏅ㄥ厛鐢燂紝Facebook璧勬繁宸ョ▼甯堥偟閾厛鐢熴€侶adoop姝ゅ墠涓捐浜嗕袱灞娿€傛湰娆″ぇ浼氱殑涓婚鎬濇兂鏄寫鎴樺崗浣滃垱鏂扮ぞ鍖恒€傚叾鎰忎箟鍦ㄤ簬鎺㈣Hadoop鍙戝睍鍜屽簲鐢ㄤ腑闈复鎸戞垬鐨勯棶棰橈紝濡傛垜浠墍鐭ワ紝杩戝嚑骞存潵Hadoop鍚稿紩浜嗗鏈晫鍜屼骇涓氱晫鐨勬敞鎰忥紝鐗瑰埆鏄緢澶氫簰鑱旂綉鍏徃鍦ㄤ娇鐢℉adoop杩涜鐢熶骇鍜岃繍琛岋紝姣斿璇撮泤铏庡拰facebook锛屾垜涓汉璁や负锛岃繖閮藉緱鐩婁簬涓ょ偣锛岀涓€锛孒adoop鏄潰鍚戝簲鐢ㄩ棶棰橈紝绗簩锛孒adoop鏄紑鏀炬簮鐮佺殑杞欢銆侶adoop鏄拡瀵硅В鍐冲鐞嗘捣閲忔暟鎹€岃璁$殑锛岃繖涓棶棰樻槸浼楀浜掕仈缃戝叕鍙搁渶瑕侀潰瀵圭殑锛屽紑鏀炬簮鐮佷笉浠呮彁渚涗簡宸ュ叿锛屼篃鎻愪緵浜嗕氦娴佸拰鍚堜綔鐨勮垶鍙帮紝甯屾湜閫氳繃骞垮ぇHadoop鐖卞ソ鑰呯殑鍔姏锛屼娇Hadoop瓒婃潵瓒婂己澶э紝瓒婃潵瓒婂ソ鐢紝鐢氳嚦鍌敓Hadoop鏂扮殑浜掕仈缃戠殑搴旂敤銆?聽 聽 聽9:16

[寰愬織浼焆:闈炲父娆㈣繋娴峰唴澶栫殑鏈嬪弸浠潵鍙傚姞杩欐浼氳銆傛垜浠殑鎵€闀挎潕鍥芥澃闄㈠+浠婂ぉ绐佺劧鍒板幓鍑哄樊锛屾墍浠ヤ粬璁╂垜鏉ヨ浆杈句粬瀵规垜浠殑绁濊春锛岃€屼笖鎴戜滑璁$畻鎵€鐪嬭杩欎釜Hadoop club锛屽師鏉ユ槸涓€涓崏鏍硅繍鍔紝鐜板湪寰楀埌浼佷笟鐣岀殑涓€鑷存敮鎸侊紝灏ゅ叾鏄勾杞荤殑鍚屽浠殑鍙備笌锛岃繖鏄垜浠潪甯搁珮鍏寸湅瑙佺殑銆傝绠楁墍涔熷皢涓€濡傛棦寰€缁х画鏀寔杩欑绀惧尯鎬х殑娲诲姩銆?聽 聽 聽9:21

[寰愬織浼焆:浠婂ぉ鎴戞兂璺熷ぇ瀹惰皥涓変釜闂锛岀涓€锛屾垜浠彲鑳藉崄鍑犲勾浠ュ墠灏卞湪鍋氱綉缁滆绠楃殑鐮旂┒锛屼互鍓嶇殑鍚嶈瘝鏄彨鍒殑锛屼笉鍍忎粖澶╁彨鐨勫緢鐑殑鈥滀簯璁$畻鈥濓紝杩欐槸璁$畻鎵€闀挎湡鐨勬垬鐣ワ紝鎴戞兂璺熷ぇ瀹惰璁茶绠楁墍涓轰粈涔堣鍋氳繖鏍风殑浜嬫儏锛屽彟澶栧畠鐨勫叧娉ㄩ噸鐐规槸浠€涔堬紝杩樻湁鎴戣窡澶у涓惧嚑涓緥瀛愩€?聽 聽 聽9:22

[寰愬織浼焆:鎴戜滑璁$畻鎵€鍋氫簨鎯呬富瑕佹湁涓や釜鍥犵礌锛屼竴鏄鏈夊浗瀹舵垬鐣ラ渶姹傦紝绗簩璺熸垜浠殑瀛︾鈥斺€旇绠楁満绉戝鎶€鏈殑瀛︾鍙戝睍瀵嗗垏鐩稿叧銆傛垜鍏堢粰澶у璁茶甯傚満鐨勯渶姹傦紝鏈変竴涓€幇璞★紝涓嶇煡閬撳ぇ瀹舵敞鎰忔病鏈夛紵浠庨暱杩滅殑瑙掑害鐪嬶紝鎴戜滑鍏ㄧ悆鐨勮绠楁満甯傚満鐜板湪澧為€熷紑濮嬫斁缂撲簡锛屾渶杩戝叓骞达紝宸茬粡鍒板崟浣嶆暟浜嗭紝鍐嶅線涓嬭绠楁満灏变笉澧炰簡锛屾垜浠氨鍙樻垚澶曢槼浜т笟浜嗭紝鏈夋病鏈夎繖绉嶅彲鑳斤紵杩欎細褰卞搷璁$畻鏈虹殑鏁欒偛锛屾垜浠繕鎷涜繖涔堝瀛︾敓鏉ュ共浠€涔堬紵浠栦滑姣曚笟浠ュ悗鎵惧伐浣滀細寰堥夯鐑︼紝鑰屼笖鎴戜滑鐨勭爺绌舵槸涓嶆槸涔熸湁鏂扮殑鎸戞垬锛熻繖鏄竴涓潪甯稿€煎緱鎴戜滑娣辨€濈殑闂銆傛垜浠腑鍥芥瘮鍥藉濂斤紝灏辨槸鎴戜滑鐜板湪杩樻槸鍙屼綅鏁板闀匡紝浣嗘槸鏇撮噸瑕佺殑涓€涓棶棰橈紝灏辨槸鎴戜滑鑳戒笉鑳藉鎶婅繖涓秼鍔块€嗚浆锛屾湁娌℃湁鏈轰細閫嗚浆瀹冿紵涓嶈瑙夊緱鎴戜滑宸茬粡鍒伴《浜嗭紝鎴戜滑鑳戒笉鑳藉鎯冲埌锛岀幇鍦ㄦ垜浠墠鍒氬垰寮€濮嬶紝濡傛灉鍒氬垰寮€濮嬶紝浠ュ悗鐨勪笢瑗挎槸浠€涔堬紝鑲畾涓嶆槸鎴戜滑鐜板湪宸茬粡鐪嬭鐨勪笢瑗匡紝鐜板湪鐨勪笢瑗垮彲鑳藉氨10%锛岃繕鏈夊ぇ閲忕殑涓滆タ鍙戞尌鍑烘潵锛岃€岃繖浜涘彂灞曠殑涓滆タ锛屽緢澶氫細鐢辨垜浠粖澶╁湪搴х殑浜哄彂鏄庡嚭鏉ャ€?聽 聽 聽9:23

[寰愬織浼焆:绗簩锛岀湅鎴戜滑涓浗鐨勫競鍦猴紝绉戝闄㈢粡杩囦袱骞寸殑鎴樼暐鐮旂┒锛屾垜浠湁涓€浜涚粨璁猴紝绗竴涓粨璁烘槸锛屾垜浠殑甯傚満鍙兘鑷冲皯浼氬啀澧為暱10鍊嶏紝鏈夊彲鑳戒細澧為暱20鍊嶃€傝繖鏈変竴涓牴鏈殑鍘熷洜銆備粠鎴戜滑瀛︾鏉ヨ锛屽氨鏄綉缁滆绠楀嚭鐜颁簡銆傜綉缁滆绠椾細鎴愪负鎴戜滑璁$畻鏈虹殑涓€涓己鐪佺殑妯″紡锛岃€屼笖浠庢垜浠绉戜笂璁诧紝鎴戜滑瑕佷粠浠ュ墠浜烘満鍏辩敓锛屼紶缁熺殑涓滆タ锛岃鎵╁睍涓轰笁鍏冧笘鐣岋紝灏辨槸浜虹被绀句細鍜岃嚜鐒剁墿鐞嗕笘鐣屼笁涓笢瑗夸細杩炲湪涓€璧风殑锛岃繛鍦ㄤ竴璧蜂互鍚庢湁寰堝闈炲父澶氱殑鏂伴渶姹傦紝鎴戜滑杩樻病鏈夋寲鎺樼殑锛屾瘮濡傝鏈€杩戝緢澶氬叴璧风殑绀句細缃戠粶璁$畻锛岀ぞ浼氳绠楋紝灏辨槸浜虹被绀句細鍜屾垜浠€渃yberspace鈥濈粨鍚堜互鍚庣殑鏂颁骇鐗╋紝鎴戜滑鐪嬭鐨勪笢瑗垮垰鍒氬紑濮嬶紝鍖呮嫭鎴戜滑鍋氬緱寰堝ソ鐨勫巶鍟嗭紝鍦ㄤ氦娴佺殑鏃跺€欙紝浠栦滑閮藉憡璇夋垜浠紝浠栦滑鑷繁瑙夊緱锛屽叾瀹炶繕鏈夐潪甯稿鐨勬寫鎴樺拰闈炲父澶氱殑鏈洪亣鐜板湪杩樻病鏈夋潵寰楀強鎸栨帢鍑烘潵銆傝繖瀵规垜浠腑鍥界壒鍒噸瑕侊紝鍥犱负鎴戜滑涓浗鍜岀幇鍦ㄥ叏鐞冨叾浠栧湴鏂逛笉涓€鏍风殑鏄紝涓浗鐜板湪鐨処T鍗犲浗闄匢T甯傚満鐨勬瘮渚嬫槸闈炲父灏忥紝灏界缁忚繃杩欎箞澶氬勾鐨勫姫鍔涳紝鎴戜滑鍗冧竾鍒繕浜嗘垜浠槸涓€涓彂灞曚腑鍥藉锛屽彲鑳藉湪20骞翠箣鍐呰繕鏄竴涓彂灞曚腑鍥藉锛屾垜浠幇鍦ㄥ浗鍐呮湁浜涢敊璇殑鍒ゆ柇锛岄偅涓暟鎹槸瀹屽叏閿欒鐨勶紝浠栦滑璁や负濂藉儚涓浗蹇窡缇庡浗宸笉澶氫簡锛屽叾瀹炴牴鎹腑鍥界瀛﹂櫌鐨勮绠楋紝瑕佸埌2050骞达紝鎴戜滑浜哄潎IT鑺辫垂鎵嶆湁鍙兘杈惧埌缇庡浗浠婂ぉ鐨勬按骞筹紝鎵€浠ュ嵆浣垮埌2050骞达紝鎴戜滑鐨勪俊鎭骇涓氱殑鍙獻T鈥渨irefair鈥濊繖涓潵绠楃殑璇濓紝鎴戜滑杩樻槸瑕佽窡缇庡浗钀藉悗50骞寸殑锛屾寜浜哄潎鏉ョ畻銆傛墍浠ユ垜浠幇鍦ㄨ繕鏈夐潪甯搁潪甯稿鐨勬満浼氾紝杩欑偣鍗冧竾鍒繕璁帮紝鍥犳鎴戜滑灏遍渶瑕佺爺绌惰繖閲岄潰鍒板簳鏈夊摢浜涗笢瑗裤€?聽 聽 聽9:27

[寰愬織浼焆:浣嗘槸鎴戜滑鏈変竴涓紭鐐癸紝灏辨槸涓浗鏈変竴涓壒鐐癸紝鎴戜滑浠ュ悗鑲畾浼氭垚涓哄叏鐞冧俊鎭競鍦虹敤鎴锋渶澶氱殑锛岃€屼笖鏈夊彲鑳界粡杩囦粖鍚庡嚑鍗佸勾鐨勫姫鍔涳紝涓浗鍙兘浼氭垚涓哄叏鐞冩渶澶х殑淇℃伅甯傚満銆傝繖涓競鍦虹殑鎺ㄥ姩鍔涙湁寰堝鍙兘灏辨槸鎴戜滑鍦ㄥ骇鐨勪汉鏉ュ仛鐨勩€傚儚鎴戜滑鏈夊ソ澶氫簰鑱旂綉鍏徃锛岃窡浼犵粺鐨処T鍏徃鏈変竴涓笉鍚岀殑鐗圭偣锛屽紑濮嬪彂璧风殑鏃跺€欏氨鍑犱釜浜猴紝鍗充娇鍒扮幇鍦紝宸茬粡鍦ㄦ敮鎸佸嚑浜跨敤鎴风殑鏃跺€欙紝瀹為檯涓婃妧鏈汉鍛樺氨鍑犵櫨浜恒€傝繖鏄簰鑱旂綉缁欐垜浠甫鏉ョ殑涓€涓柊鐨勬満閬囷紝缃戠粶璁$畻甯︽潵鐨勬柊鐨勬満閬囷紝瀹屽叏鍜屼互鍓嶇殑鐢熸€佺幆澧冩槸涓嶄竴鏍风殑锛屾垜浠€庝箞鍒╃敤杩欎釜涓滆タ锛屼篃鏄垜浠殑涓€涓寫鎴樸€?聽 聽 聽9:28

[寰愬織浼焆:鎴戣繖鍎垮垪浜嗕竴浜涙暟鎹紝鐜板湪鏈変竴涓ソ澶勶紝杞欢鎴戜滑鍥藉寮€濮嬪闀夸簡锛屾垜浠殑鏈嶅姟涓氬崰鐨勬瘮渚嬩篃澧為暱浜嗭紝杩欎簺閮芥槸鎴戜滑鐨勭粨鏋勫湪寮€濮嬭浆鍨嬨€?聽 聽 聽9:28

[寰愬織浼焆:涓嬩竴涓垜璺熷ぇ瀹惰涓€璁叉垜浠绠楁墍鐨勫绉戝彂灞曟柟闈紝鏄垜浠緢澶氱爺绌剁敓鍚屽鐗瑰埆閲嶈鐨勩€傛垜浠兘鍦ㄨ鍒嗗竷寮忚绠楋紝缃戠粶璁$畻锛屼粈涔堝彨缃戠粶璁$畻锛熻繖浜涗簨鎯呬笉鎼炴竻妤氾紝鏈夊ソ澶氭椂鍊欏ぇ瀹惰寰楀緢濂囨€紝缁忓父澶у灏遍棶锛岀櫨搴﹀拰Google杩欐牱鐨勫叕鍙革紝鏄庢槑鏄垎甯冨湪鍏ㄥ浗锛屽ソ澶氬湴鏂归兘鏈変粬浠殑鏈嶅姟鍣ㄥ湪璺戠殑锛屼负浠€涔堣璇翠粬鏄泦涓紡绯荤粺锛熷叾瀹炴垜浠璁查泦涓拰鎺у埗灏辨竻妤氫簡锛屼粈涔堝彨鍒嗗竷寮忕郴缁燂紝浠€涔堝彨鍒嗘暎绯荤粺锛屽儚Web杩欐牱鐨勪笢瑗垮拰璇煶闆嗕腑寮忕殑绯荤粺鏈変粈涔堜笉鍚岋紝绉戝闄㈢殑鐮旂┒锛屾垜浠殑IT濂藉儚鏈変笁鍥藉畾寰嬶紝鍒嗕箙蹇呭悎锛屽悎涔呭繀鍒嗭紝澶ф鐨勫懆鏈熸槸15骞达紝涔熷彲鑳介暱涓€浜涖€傛垜浠闊宠绠楋紝浠庨泦涓線涓嬩竴娆″垎涓棿鐨勪竴涓樁娈碉紝鐜板湪杩樻病鏈夊畬鍏ㄥ疄鐜板埌鐪熸鐨勫垎锛岃闊宠绠楀ぇ閮ㄥ垎杩樻槸闆嗕腑鎻愪緵鐨勶紝浣嗘槸鏈変竴涓師鏉ョ殑鏈嶅姟鍣ㄥ彲鑳芥槸涓嶄竴鏍风殑锛岃繖閲屾湁涓€浜涜寰嬫€х殑涓滆タ锛岀幇鍦ㄦ湁浜涗汉鏉ヨ鈥渃omputing鈥濆疄闄呬笂鏄蒋浠跺ぇ鍨嬫満锛屼絾鏄湁涓€涓巻鍙茬殑蹇呯劧鎬э紝浠庤繖涓骇涓氭潵鐪嬨€?聽 聽 聽9:31

[寰愬織浼焆:缃戠粶璁$畻鍓嶅嚑骞寸倰寰楁瘮杈冪儹鐨勮瘝鍙綉鏍艰绠楋紝缃戠粶閫熷害涓婂幓浠ュ悗锛屽緢澶氳祫婧愪細鍒嗗埌鍒殑鍦版柟锛岀瀛︾晫鍙綉鏍硷紝鎴戜滑浼佷笟鍙玞loud锛屾垜浠绠楁墍鍋氱殑绗竴鏂归潰鏄綉鏍兼柟闈紝鎴戝垪浜嗕竴涓嬬幇鐘讹紝鐜扮姸涓昏鏄袱鍧楋紝鍦ㄧ瀛︾晫寤轰簡寰堝鍩虹璁炬柦锛屽ぇ瀹跺彲浠ョ湅鐪嬶紝鍏朵腑鍥介檯涓婃渶涓昏鐨勫嚑涓綉鏍煎熀纭€璁炬柦锛屼腑鍥芥湁涓€涓浗瀹剁綉鏍硷紝涓婇潰鏈夊悇绉嶉鍩熺殑绉戝鐨勫簲鐢ㄣ€備絾鏄叧閿棶棰樻槸锛岀幇鍦ㄦ垜浠埌浜嗕簯璁$畻浜嗭紝浜戣绠楁鍦ㄥ彂灞曪紝鍙戝睍瓒嬪娍浼氭槸浠€涔堝憿锛熺幇鍦ㄥぇ瀹堕兘涓嶇煡閬擄紝鎴戜滑璁や负锛屼互鍚庡緢鍙兘锛屽挨鍏跺涓浗鏉ヨ锛屼竴涓揩鍒囩殑闇€姹傚氨鏄€庝箞涓鸿€佺櫨濮撴湇鍔★紝涓烘垜浠互鍚庡彲鑳戒細鏈変笂鍗佷嚎鐨処T鐢ㄦ埛鏈嶅姟锛屾垜浠捣浜嗕釜鍚嶅瓧鍙櫘鎯犺绠楋紝鎴戜滑宸茬粡寮€濮嬬湅鍒颁竴浜涘熀纭€搴旂敤锛屼絾鏄繖鏂归潰鐨勬満浼氳繕鏄潪甯稿鐨勩€?聽 聽 聽9:34

[寰愬織浼焆:鎴戜滑ICT鍏虫敞鐨勯噸鐐规槸浠€涔堝憿锛熺涓€銆佹垜浠涓轰紒涓氬拰绀句細鎻愪緵鎬濇兂锛屾彁渚涚瀛︽妧鏈柟闈㈢殑鐮旂┒锛岃繕鏈夊綋鐒惰鎻愪緵浜烘墠銆傛瘮濡傝鍦ㄦ€濇兂鏂归潰锛屾垜浠渶杩戠殑涓€涓垚鏋滃氨鏄垰鍒氬嚭鐗堢殑鑷?050骞翠俊鎭鎶€鍙戝睍璺嚎鍥撅紝鍏朵腑涓鸿绠楋紝鏅儬璁$畻锛屽挨鍏舵槸缃戠粶璁$畻鎴戜滑瑕佹瀯寤烘櫘鎯犳硾鍦ㄧ殑淇℃伅缃戠粶锛岃繖涓槸鎴戜滑浠婂悗鍑犲崄骞寸殑涓€涓噸瑕佷换鍔″拰涓€涓爺绌舵満浼氥€傚彟澶栨垜浠篃鍏虫敞璁$畻骞冲彴锛屾瘮濡傝鍍忔垜浠嚭鍘荤湅閭d釜灞曡鐨勮瘽锛屾湁鎴戜滑鐨凣OS鍜屾垜浠幇鍦ㄧ殑浜戣绠楀钩鍙帮紝杩樻湁涓€浜涘熀纭€鐮旂┒鐨勪笢瑗裤€傝绠楁墍绉瀬鍙傚姞寮€婧愮ぞ鍖猴紝鎴戜滑浠婂ぉ鍙傚姞浜咹adoop锛岃繕鏈夊拰娆х洘鍚堜綔鐨刋treemos锛岃繕鏈塐MII杩欐牱鐨勫紑婧愮ぞ鍖猴紝鎴戜滑鐨勫鏈偣閲嶅湪骞冲彴杞欢鏂归潰锛岃€屼笖鎴戜滑鍏虫敞鐨勬槸鍙墿灞曟€э紝涓€鑷存€э紝瀹归敊鎬э紝灞€閮ㄦ€э紝鏄撶敤鎬ц繖鏂归潰锛屾垜浠槸浠庤绠楃殑妯″紡锛屽挨鍏舵槸鈥滅姸鎬佲€濓紝杩欐槸涓€涓潪甯搁噸瑕佺殑姒傚康锛屽湪缃戠粶璁$畻涓紝鐘舵€佸埌搴曟€庝箞瀹氫箟锛屽摢浜涘湴鏂瑰簲璇ユ槸鏃犵姸鎬侊紝鍜屾湁鐘舵€佺殑锛岃繕鏈夎皟搴︼紝浠ュ強鎬庝箞缂栫▼杩欐柟闈紝鎴戜滑鍏虫敞鐨勮窡寮€婧愮ぞ鍖烘湁浜涗笉涓€鏍凤紝鎴戜滑闄や簡瑕佸紑鍙戣繖涓唬鐮佷互澶栵紝杩樿鐫€閲嶅垎鏋愬拰缁煎悎銆傛瘮濡傝鎴戜妇涓緥瀛愶紝鐜板湪鎴戜滑鐨勫ソ澶氱綉缁滆绠楋紝閮藉彈浜嗏€淓ric Brooklyn鈥濆畾鐞嗙殑褰卞搷锛屽ぇ瀹堕兘鐭ラ亾锛屾垜浠殑涓€鑷存€э紝鍒嗗尯瀹归敊鎬э紝鍜屾槗鐢ㄦ€ф渶澶氬緱鍒颁袱涓紝涓嶈兘鍏ㄥ緱鍒版€庝箞鍔炲憿锛熸湁濂藉鏄笉婊¤冻鎴戜滑鐜板湪鐨勫緢澶氶渶姹傜殑锛岃繖閲岄潰灏辨湁闈炲父澶氱殑鐮旂┒闂銆傝€屼笖鎴戜滑鏈€杩戣繕鍋氫簡涓€椤瑰垎鏋愬伐浣滐紝灏辨槸浜戣绠楅潰涓寸殑涓冧釜鎸戞垬锛屼粖澶╂椂闂村叧绯绘垜灏变笉涓€涓€璇翠簡銆?聽 聽 聽9:37

[寰愬織浼焆:杩樻湁涓€鐐瑰氨鏄垜浠€庝箞鎻愰珮鏁堢巼锛岀幇鍦ㄧ殑鏁版嵁涓績宸茬粡瓒婃潵瓒婂簽澶э紝鑰屼笖浠ュ悗杩樺彲鑳戒細缁х画搴炲ぇ锛屾€庝箞绠$悊杩欎箞澶氫笢瑗匡紝鎴愭湰鎬庝箞闄嶄綆锛屾晥鐜囨€庝箞鎻愰珮锛屼互鍙婂姛鑰楁€庝箞闄嶄綆锛岃繖浜涢兘鏄緢澶х殑闂銆備粬鐨勫埄鐢ㄧ巼瀹為檯鏄緢浣庣殑锛屽湪鍏ㄤ笘鐣岄兘鏈夊緢澶氱殑璋冩煡锛屾垜浠粠鍏紑鐨勮祫鏂欏氨鐪嬪緱瑙侊紝寰堝鍦版柟璋冩煡鏈嶅姟鍣ㄧ殑鍒╃敤鐜囨暟鎹腑蹇冨綋涓彧鏈?0%涓嶅埌鐨勶紝鎴戜滑鍥藉唴鏈夊緢澶氬湴鏂瑰彧鏈?%锛屾湁浜涘ぇ鍏徃锛屽唴閮ㄧ殑鏁版嵁涓績鍜屾湇鍔″櫒鐨勫埄鐢ㄧ巼涔熷緢浣庯紝鍒板簳鏄€庝箞鍥炰簨锛屽ぇ瀹惰寰楋紝绗竴锛屼綘鍐嶇粰浠栧鐐硅繘鍘荤畻灏辫浜嗭紝鍏跺疄闂鏄綘娌℃湁鍔炴硶濉炶繘鍘讳簡锛屼粬鐪嬭捣鏉ユ槸浣庯紝涓€濉炶繘鍘讳互鍚庯紝浣犵殑涓氬姟灏辫窇涓嶅姩浜嗐€傛垜浠彸杈规湁涓浘锛屾垜浠爺绌跺嚭鏉ョ殑锛屽鏋滄兂鎶婁粬鐨勮礋杞芥彁楂橈紝浠栫殑鍝嶅簲鏃堕棿鍜屾垚鍔熸墽琛岀殑鏃堕棿浼氬ぇ骞呭害闄嶄綆锛屾牴鏈笉鑳芥弧瓒崇敤鎴风殑闇€姹傦紝骞朵笉鏄锛屾槑鏄庢槸绌洪棽鐨勶紝浣犲氨濉炰笉涓婂幓锛岃繖閲岄潰鏈夊緢澶氬緢澶氬師鍥狅紝浣犳€庝箞搴斿鍛紵鎴戜滑璁$畻鎵€涔熺爺绌朵簡鍏朵腑涓€涓紝灏辨槸鎬庝箞鑳藉鍒╃敤鎴戜滑缃戠粶璁$畻鐨勬秾鐜扮幇璞℃彁楂樿繖涓笢瑗裤€?聽 聽 聽9:39

[寰愬織浼焆:杩欎釜娑岀幇鐜拌薄鍜屾垜浠绠楁満绉戝棰嗗煙涓€涓眬閮ㄦ€ф槸瀵嗗垏鐩稿叧鐨勶紝澶у鐭ラ亾锛岃绠楁満绯荤粺閲岄潰灞€閮ㄦ€ф槸涓€涓渶瑕佸懡鐨勬蹇碉紝闈炲父鍩烘湰鐨勬蹇碉紝灞€閮ㄦ€у師鐞嗭紝鐩稿綋浜庤绠楁満鐨勭墰椤垮畾寰嬩竴鏍凤紝濡傛灉娌℃湁灞€閮ㄦ€э紝璁$畻鏈轰骇涓氬氨褰诲簳姝绘帀浜嗐€傜幇鍦ㄥ湪缃戠粶璁$畻褰撲腑鏈変粈涔堝眬閮ㄦ€у憿锛熸垜浠兘涓嶈兘鍒╃敤浜烘満鐗╀笁鍏冧笘鐣岀殑娑岀幇鐜拌薄锛岃繖灏辨槸鎴戜滑鐮旂┒鐨勶紝姣斿璇村湪鏁版嵁鏂归潰锛屾垜浠湪鐮旂┒锛屽亣濡傛湁寰堝寰堝鐢ㄦ埛閮藉湪璁块棶鏁版嵁鐨勮瘽锛屼粬浠兘鏄嫭绔嬬殑锛屾湁娌℃湁灞€閮ㄦ€у憿锛熻€屼笖浠栫殑鏁版嵁婧愭潵婧愬ソ澶氬湴鏂癸紝杩欐槸涓€涓吀鍨嬬殑鏁版嵁闆嗘垚闂锛屾湁濂藉濂藉閮芥槸杩欐牱骞茬殑锛屾垜浠瀛︾晫鏈夛紝浜掕仈缃戞湇鍔¢兘鏈夎繖鏍风殑闂锛屾垜浠湁涓€涓爺绌剁粨鏋滐紝灏辨槸鍙戠幇浜嗙‘瀹炲瓨鍦ㄤ竴绉嶆柊鐨勬秾鐜扮幇璞★紝鍙姹傚眬閮ㄦ€э紝鐒跺悗鎴戜滑鍙戞槑浜嗕竴绉嶆柊鐨勬妧鏈彨璇锋眰绐楀彛锛屽ぇ瀹跺彲浠ュ幓鐪嬩笂闈㈡垜浠绠楁墍鐨勬枃绔犮€傝€屼笖浠栫殑鏁堟灉纭疄寰堝ソ锛屼綘涓嶇敤鍔犱换浣曠‖浠讹紝灏辨槸濂藉ソ鍒╃敤鏂扮殑灞€閮ㄦ€у氨鍙互鎻愬崌浠栫殑鍚炲悙鍔涖€?聽 聽 聽9:40

[寰愬織浼焆:杩樻湁涓€涓氨鏄叧浜庢暟鎹被鐨勶紝璁$畻绫荤殑涔熸湁杩欎釜闂锛岀幇鍦ㄦ垜浠ソ澶氳皟搴︼紝璁$畻璋冨害锛岃兘澶熸妸鏁堢巼鎻愬崌涓婂幓锛屾垜浠篃鍋氫簡杩欐牱鐨勫垎鏁f儏鍐碉紝杩欎釜鏂归潰鍦ㄧ粡娴庡鐣屾湁寰堝鐮旂┒锛屾垜浠繖鏂归潰杩樻病鏈夎繖鏍风殑瑙勫緥锛屽氨鏄垎甯冨紡璋冨害閲岄潰锛屽ぇ瀹朵篃寮€濮嬫湁浜涘伐浣滐紝浣嗘槸浣跨敤杩欑闈為泦涓殑鏂瑰紡杩樻瘮杈冨皯銆傛墍浠ユ垜浠渶鍚庢兂鍒颁簡涓€瀹氳繖鏍风殑璇濓紝灏卞彲浠ュ埄鐢ㄧ粡娴庡缁撳悎鎴戜滑璁$畻鏈虹殑绠楁硶绉戝鍜屽崥寮堣game theory鍋氳皟搴︼紝杩欐牱鐨勪笢瑗挎垜瑙夊緱璺熸垜浠互鍚庝簯璁$畻鍜岀綉缁滆绠楁湁寰堝ぇ鐨勭浉鍏虫€с€傛渶鍚庣殑鏁堟灉灏辨槸锛屾垜浠‘纭疄瀹炶兘澶熷ぇ骞呭害鏀瑰杽杩欐柟闈㈢殑鏁堢巼锛屾墍浠ワ紝鏁版嵁涓績鏁堢巼寰堜綆銆?聽 聽 聽9:40

[寰愬織浼焆:鍒氭墠鏄亸鍩虹鐮旂┒鐨勶紝鎴戜滑鐜板湪姝e湪鎯虫妸鍩虹鐮旂┒鐨勭粨鏋滄€庝箞鑳藉鐢ㄤ笂鍘伙紝杩樻湁鎴戜滑涔熷仛浜嗗緢澶氳蒋浠讹紝姣斿璇存垜浠殑涓€涓狦OS锛屼竴涓槸system software锛岃繖涓富瑕佺敤CNgrid鐨勶紝杩樻湁濂藉鐢ㄦ埛涓嶆効鎰忚嚜宸卞缓涓€涓綉鏍硷紝浠栨兂鎴戣兘涓嶈兘鍋氫竴涓狦ateway鐢ㄧ綉涓婄殑璧勬簮锛岃繖鏄緢鍙楁杩庣殑锛屽寘鎷苯杞﹁涓氱殑鐢ㄦ埛涔熷湪鐢ㄨ繖鏍风殑涓滆タ锛岃繖涓垜浠篃鍦ㄥ叏鍥?2涓湴鏂归儴缃蹭簡锛岃繖绉岺PC鐨凣ateway锛岃繕鏈夋暟鎹被鐨勶紝杩欏拰Hadoop鐩稿叧銆傝繕鏈変竴涓垜浠幇鍦ㄦ鍦ㄥ彂灞曠殑灏辨槸甯屾湜浠ュ悗鎴戜滑鍋氫竴涓簯璁$畻鐨勫钩鍙帮紝鑳藉閽堝绉戝璁$畻锛屽ぇ閲忕殑鏁版嵁鍜屽悇绉嶉泦鎴愭潵鍋氱殑锛岃繖涓洰鍓嶆垜浠湁浜涘垵姝ョ殑鐗堟湰浜嗭紝杩欎釜鍙兘鏄洿鍒囧悎锛屼笉鍏夋槸楂樻€ц兘璁$畻锛岃繕鏈夊氨鏄暟鎹湇鍔$殑杩欐牱鐨勫簲鐢ㄣ€?聽 聽 聽9:41

[寰愬織浼焆:鎴戜粖澶╃殑璁茶瘽灏卞埌杩欏効涓烘锛屾垜鏈€鍚庢兂璇翠竴鍙ワ紝璁$畻鎵€鏄浗瀹剁殑鐮旂┒鎵€锛屾垜浠殑璐d换鏄悜绀句細鎻愪緵鎬濇兂銆佹妧鏈拰浜烘墠锛屾垜浠潪甯告効鎰忓拰鎴戜滑鐨勫紑婧愮ぞ鍖猴紝鍍廐adoop杩欐牱鐨勫紑婧愮ぞ鍖哄拰寰堝蹇楁効鑰呬竴鍧楀悎浣滐紝璁╂垜浠仈鍚堣捣鏉ワ紝璁╂垜浠殑寮€婧愪簨涓氳秺鏉ヨ秺杩涙锛岃兘澶熸敮鎾戞垜浠腑鍥界殑浼佷笟锛屽苟涓轰笘鐣岀殑寮€婧愪簨涓氬仛鍑鸿础鐚紝璋㈣阿澶у銆?聽 聽 聽9:42

[涓绘寔浜?鏌ョぜ]:寰愯€佸笀鐨勬姤鍛婇潪甯哥簿褰╋紝涓嬮潰鏈潵搴旇鏄敱鍜变滑闆呰檸鐨凟ric鏉ュ仛鎶ュ憡锛屼絾鏄粬鐜板湪姝e湪鎺ュ彈閲囪锛屾垜浠嬬粛涓€涓嬫垜浠ぇ浼氱粍濮斾細鐨勬垚鍛橈紝鍥犱负浠栦滑鍦ㄨ繖涓細璁綋涓仛鍑轰簡寰堝宸ヤ綔锛岄潪甯哥殑杈涜嫤銆傛瘡涓汉瀵硅繖涓椿鍔ㄥ仛涓€涓嬪睍鏈涖€?聽 聽 聽9:42

[鐜嬪畧褰︼紙鐧惧害绯荤粺閮ㄩ」鐩粡鐞嗭級]:涔嬪墠鎴戜篃鍙傚姞杩囦袱娆$殑Hadoop娌欓緳锛屾渶鏃╁彧鏈夊崄鍑犱釜浜猴紝鍒扮浜屾鏈変簲鍏崄浜猴紝鐜板湪鏈夊ソ鍑犵櫨浜猴紝鎴戝笇鏈涗腑鍥界殑寮€婧愮ぞ鍖鸿兘澶熷彂灞曞緱瓒婃潵瓒婂ソ锛岃秺鏉ヨ秺澹ぇ锛岃繖鏍风殑璇濇垜浠暣涓妧鏈疄鍔涗篃浼氬緱鍒板緢澶х殑鎻愬崌銆?聽 聽 聽9:43

[閭甸摦锛團acebook鍏徃璧勬繁宸ョ▼甯堬級]:澶у濂斤紝鎴戜粖澶╀篃鏄涓夋鏉ュ埌Hadoop鐨勪細鍦猴紝闈炲父楂樺叴缁х画浠嬬粛鐩稿叧鐨勪竴浜涙妧鏈紝鎴戠壒鍒笇鏈涗腑鍥界殑杩欎簺鐮旂┒闄互鍙婂叕鍙告洿澶氱殑鍔犲叆寮€婧愮ぞ鍖猴紝鑳藉寮€濮嬪寮€婧愮ぞ鍖哄仛鍑鸿础鐚紝鍚屾椂浠庡紑婧愮ぞ鍖哄綋涓幏寰楁洿澶氱殑鍥炴姤锛屽湪缇庡浗锛屽紑婧愯繖涓柟寮忔垨鑰呰Open杩欎釜鏂瑰紡宸茬粡寰楀埌浜嗛潪甯搁潪甯稿ぇ鐨勫簲鐢紝骞朵笖瀵规暣涓涓氬悇涓叕鍙搁兘璧峰埌闈炲父澶х殑淇冭繘浣滅敤锛屽湪涓浗鎴戞劅瑙夊垰鍒氬紑濮嬶紝甯屾湜澶у涓€璧峰姫鍔涘線杩欎釜鏂瑰悜涓€璧峰彂灞曘€?聽 聽 聽9:43

[闊╄蕉骞筹紙闆呰檸鍖椾含鍏ㄧ悆杞欢鐮斿彂涓績锛塢:鎴戞槸浠婂勾9鏈堝垰鍒氬洖鍒板寳浜姞鍏ラ泤铏庡寳浜爺鍙戜腑蹇冪殑锛屽湪姝や箣鍓嶆垜鍦ㄩ泤铏庣編鍥界殑鎬婚儴宸ヤ綔锛屽叾瀹炴垜璺熼偟閾互鍓嶆槸鍚屼簨锛屾垜浠袱涓篃鏄疕adoop鍧氬畾鐨勬敮鎸佽€呭拰鎺ㄥ姩鑰咃紝鎴戣寰楋紝鎴戠涓€娆″弬鍔燞adoop鍦ㄤ腑鍥界殑娲诲姩鐨勬椂鍊欙紝閭甸摦绗竴娆″弬鍔犺繖涓椿鍔ㄤ箣鍓嶏紝鎴戠壒鍦板埌浠栧鍘伙紝鎴戜滑鍋氫簡宸笉澶氫袱涓皬鏃跺鐨勫交澶滈暱璋堬紝鎴戜滑褰撴椂鎯存兇涓嶅畨锛岀涓€娆″湪涓浗鎼炶繖鏍风殑娲诲姩锛屽灏戜汉浼氬弬涓庯紝鎴戝悗鏉ュ張璺熶粬褰诲闀胯皥锛岃皥浜嗕袱涓皬鏃讹紝鐪嬪埌寰堝浜哄弬鍔狅紝浠婂ぉ绗笁娆℃椿鍔ㄧ殑鏃跺€欙紝宸茬粡鍒颁簡涓€涓┖鍓嶇殑瑙勬ā锛屾垜浠湡鐨勫緢楂樺叴锛屽寘鎷垜杩欎竴娆★紝鎴戝姞鍏ュ寳浜殑闆呰檸鐮斿彂涓績锛屾垜涓€涓緢澶х殑浠诲姟灏辨槸璇达紝鍦ㄤ腑鍥戒篃濂斤紝鍦ㄩ泤铏庡寳浜篃濂斤紝鎺ㄥ姩浜戣绠楀拰Hadoop寮€鍙戝拰搴旂敤鐨勫伐浣滐紝鎴戝笇鏈涘ぇ瀹跺澶氱殑鍙備笌杩涙潵锛屽弬涓庤繖涓簲鐢紝鍙備笌寮€鍙戯紝鍙備笌鍒板紑婧愮ぞ鍖洪噷鏉ワ紝璋㈣阿澶у銆?聽 聽 聽9:46

[閮戠殦]:鎴戝緢鍏村鐨勭湅鍒帮紝绗簩娆℃槸绗竴娆$殑浜屽€嶏紝绗笁娆℃槸绗竴娆$殑涓夊€嶏紝杩欐牱鐨勫彂灞曟垜浠緢鑽e垢璇峰埌寰堝浠庡浗澶栫殑瀵笻adoop鏈夌洿鎺ュ奖鍝嶇殑鍚屼簨锛屾垜甯屾湜鍒╃敤杩欎釜鏈轰細锛岃兘淇冭繘鍥藉唴鍜屽浗澶栧湪浜戣绠楀紑鍙戝簲鐢ㄤ笂鐨勪氦娴侊紝鎴戞劅璋㈠悇浣嶄粖澶╄兘澶熸潵鍙傚姞锛屽彟澶栧嚑浣嶅悓浜嬭浜嗗緢澶氫簡锛屾垜涓嶅啀澶氭彁浜嗭紝璋㈣阿銆?聽 聽 聽9:47

[Eric Baldeschwieler]:棣栧厛璋堜竴涓嬪紑婧愮ぞ鍖猴紝Hadoop鎬庝箞鍦ㄩ泤铏庡簲鐢紝杩欏箙鍥惧睍鐜扮殑鏄疕adoop澶у璐$尞鏂扮殑鍔熻兘鐨勫彉鍖栵紝杩欐槸寰堜护浜烘尟濂嬬殑锛岃繖鍑犲勾浠ユ潵澧炲姞鐨勮础鐚殑鏁伴噺鏄竴绉嶅嚑浣曠骇鏁扮殑澧為暱銆傝繖涓浘灞曠幇浜嗛櫎Hadoop鏍稿績妯″潡浠ュ杩樺寘鎷簡涓€浜涙墿灞曞姛鑳界殑妯″潡銆傛墍浠ヨ繖涓浘涔熸樉绀哄嚭浜嗕笉浠匟adoop鏈韩寰堟湁浠峰€硷紝鍦ㄤ笂闈㈠缓绔嬫暣涓敓鎬佺郴缁熼兘鏄浉褰撴湁褰卞搷鍔涚殑銆傝繖骞呭浘灞曠ず鐨勬槸鍦℉adoop寮€婧愮ぞ鍖洪偖浠跺垪琛ㄩ噷闈㈢殑閭欢鏁伴噺鐨勫彉鍖栵紝鎴戜滑鐨勭洰鐨勪笉浠呬粎缁欏ぇ瀹朵竴涓厤璐圭殑杞欢浣跨敤锛屾洿澶氱殑甯屾湜鏁翠釜绀惧尯涓殑寮€鍙戜汉鍛樺弬涓庡埌寮€鍙戝拰璁ㄨ涓潵銆備笅闈㈣繖涓€椤靛睍绀虹殑鏄疕adoop鍦ㄦ暣涓笟鐣屼娇鐢ㄧ殑澧為暱鎯呭喌锛岄櫎浜哬ahoo浠ュ鏈夊緢澶氱殑鍏徃宸茬粡寮€濮嬩娇鐢ㄤ簡銆傝繖涓槸浠嶢pache鍒楄〃涓彇寰楃殑锛岃繕鏈夊緢澶氬叕鍙告病鏈夊湪鍒楄〃涓婁綋鐜帮紝涓浗鏈夊儚鐧惧害杩欐牱鐨勫叕鍙镐篃鍦ㄤ娇鐢ㄣ€?聽 聽 聽9:48

[Eric Baldeschwieler]:涓嬮潰鎴戣涓€涓嬪湪闆呰檸涓垜浠浣曚娇鐢℉adoop銆傞泤铏庢槸涓栫晫涓婃渶澶х殑Hadoop鐢ㄦ埛锛屼篃鏄疕adoop鏈€澶ц础鐚€呫€傞泤铏庢槸绗竴涓繁鍏ヤ娇鐢ㄥ拰寮€鍙慔adoop鐨勫叕鍙搞€傛垜寰堥珮鍏寸湅鍒癏adoop鏈変粖澶╃殑鎴愬姛锛屾垜浠彁渚涗簡涓€涓狧adoop鍒嗗彂鐗堟湰缁欏ぇ瀹讹紝杩欎釜鐗堟湰鍜岄泤铏庡唴閮ㄤ娇鐢ㄧ殑鏈湰瀹屽叏涓€鑷淬€傛墍浠ュぇ瀹朵娇鐢ㄨ繖涓増鏈殑璇濆湴鎴戜滑鑳藉湪闆呰檸鍐呴儴鍋氱殑涓€鍒囦簨鎯呭ぇ瀹朵篃鍙互鍋氥€備粖澶╂垜浠湪缇庡浗銆佸寳浜拰鍗板害銆佹湁寰堝ぇ鐨勭爺鍙戦槦浼嶃€傛渶鍚庝竴鐐规垜瑕佹彁鐨勬槸闆呰檸骞朵笉鍚戝鍑哄敭Hadoop鐨勬湇鍔★紝鎴戜滑鍙槸浣跨敤Hadoop涓哄叕鍙稿唴閮ㄥ缓绔嬫湇鍔°€傛垜浠姇璧凥adoop鐨勫師鍥狅紝鎴戜滑璁や负Hadoop瀵归泤铏庣殑鍏徃鍙戝睍鏈夋敮鎸佹剰涔夈€?聽 聽 聽9:52

[Eric Baldeschwieler]:涓嬮潰杩欏箙鍥惧睍绀虹殑鏄洰鍓嶉泤铏庡唴閮ㄦ渶澶х殑Hadoop搴旂敤鐨勮妯★紝鎴戜滑澶ф鐜板湪鏈夎秴杩囦竴涓囦釜CPU鐨勫崟涓泦缇ゅ湪浣跨敤Hadoop锛屾湁瓒呰繃500涓爺鍙戜汉鍛樺湪浣跨敤Hadoop銆傚悓鏃堕泤铏庝篃鏄疕adoop鏈€澶х殑娴嬭瘯鑰呫€傚湪鎴戜滑鍚戝鍒嗗彂闆呰檸Hadoop鐗堟湰涔嬪墠锛屾垜浠細杩涜澶氬眰娆℃祴璇曪紝浠ョ‘淇濆畠鐨勭ǔ瀹氭€с€傛垜浠湁涓€缁勪笓闂ㄧ殑闆嗙兢鐢ㄦ潵娴嬭瘯Hadoop鎬ц兘鍜岀ǔ瀹氭€с€傛垜浠繕鏈変竴涓?500涓粨鐐圭殑闆嗙兢涓撻棬鐢ㄦ潵楠岃瘉Hadoop鏂版蹇靛拰鏂扮殑璁捐銆傚湪闆呰檸鍐呯殑浠讳綍浜猴紝鍙互鑷敱鐨勪娇鐢ㄨ繖浜涙満鍣ㄣ€傛垜浠殑澶ч儴鍒嗘満鍣ㄦ槸鐢ㄤ簬鐮旂┒鍜屽紑鍙戠殑闆嗙兢锛屾渶鍚庢垜浠繕鏈夊緢澶т竴閮ㄥ垎鏈哄櫒鏄敤浣滅敓浜ц繍琛岀殑闆嗙兢銆傛墍浠ュぇ瀹舵墍瑙佸埌鐨凥adoop鍒嗗彂鐗堟湰鏄湪鍚勪釜灞傛鐨勯泦缇や笂闈㈠凡缁忕粡杩囪繍琛屽拰楠岃瘉浠ュ悗鐨勩€?聽 聽 聽9:53

[Eric Baldeschwieler]:鎴戜滑涔熸槸Hadoop鏈€澶х殑璐$尞鑰呫€備粠鍘嗗彶涓婅锛?2%鐨凥adoop鐨勫紑鍙戞槸鐢遍泤铏庤础鐚殑銆傛垜浠緢楂樺叴鐨勭湅鍒帮紝闅忕潃鏃堕棿鐨勬帹绉伙紝闆呰檸鐨勮础鐚巼姝e湪闄嶄綆锛岃繖涔熸剰鍛崇潃浠庡叾浠栫殑鏈烘瀯鎵€鏉ョ殑璐$尞姝e湪閫愭笎鐨勫澶с€傛垜浠篃鏄疕adoop璐$尞鑰呯殑鏈€澶ч泧涓汇€?聽 聽 聽9:54

[Eric Baldeschwieler]:鏈€鍚庤繖鏄疕adoop鐨勫彂灞曞巻绋嬨€?004骞碒adoop鐨勬渶鍒濈増鏈紑鍙戝畬鎴愪簡锛?005骞寸殑鏃跺€欙紝杞Щ鍒颁簡涓€涓柊鐨勬灦鏋勪笂锛?006骞寸殑鏃跺€欙紝Apache鐨凥adoop椤圭洰姝e紡寤虹珛銆傛垜浠湪涓嶆柇澧炲姞Hadoop鐨勫彲鎵╁睍鎬э紝浣垮緱浠栬兘澶熺敤浜庤秺鏉ヨ秺澶х殑闆嗙兢涓娿€?006骞寸殑鏃跺€欐垜浠湁500涓満鍣ㄥ湪42灏忔椂鎺掑簭浜?00T鐨勬暟鎹€?007骞达紝鎴戜滑浣跨敤900涓満鍣ㄦ帓搴忓悓鏍风殑鏁版嵁鍙敤浜?.8涓皬鏃躲€傚湪闆呰檸鍐呴儴鎴戜滑褰撴椂宸茬粡鏈変袱涓?000鍙版満鍣ㄧ殑闆嗙兢銆?聽 聽 聽9:56

[Eric Baldeschwieler]:涓轰粈涔堥泤铏庤浣跨敤Hadoop锛岄泤铏庢湁姣忔湀瓒呰繃5浜跨殑鐢ㄦ埛鏉ヨ闂紝鎴戜滑鏈夋暟浠ヤ竾浜胯鐨勮闂紝鏈夊ぇ閲忕殑鏁版嵁锛岄泤铏庢墍鍋氱殑寰堝浜嬫儏閮戒緷璧栦簬瀵瑰ぇ鍚噺鏁版嵁鐨勫垎鏋愩€傛垜浠渶瑕佸鏁版嵁鍙婃椂鐨勮繘琛屽垎鏋愶紝鍦ㄦ暟鎹腑鎸栨帢瑙勫緥鍜岀壒寰併€?聽 聽 聽9:58

[Eric Baldeschwieler]:鎴戜滑甯屾湜鑳藉鍦ㄩ泤铏庣殑鍚勪釜閮ㄩ棬涔嬮棿鍏变韩鏁版嵁鍜岃绠楁灦鏋勩€傞殢鐫€鎴戜滑涓嶆柇鐨勬姇鍏ワ紝纭欢鐨勬姇鍏ワ紝鎴戜滑涔熷笇鏈涙湁涓€涓灦鏋勮兘澶熷鐞嗙‖浠剁殑澶辨晥绛夌瓑闂銆傝繖鏄泤铏庣殑涓婚〉锛岃櫧鐒惰繖浜涗富椤典笂鐨勬暟鎹苟涓嶆槸鐩存帴浠嶩adoop涓婂彇寰楃殑锛屼絾鏄繖浜涙暟鎹殑澶勭悊鏄湪Hadoop涓婂畬鎴愮殑锛屾墍浠ヤ綘鍦ㄩ泤铏庝富椤典笂闈㈣繘琛屾悳绱㈡垨鐪嬪埌鐨勫箍鍛婏紝杩欎簺鏈嶅姟鐨勫悗鍙伴兘鏄敱Hadoop涓婄殑搴旂敤鎵€瀹屾垚鐨勩€傛墍浠ラ泤铏嶩adoop闆嗙兢鏈夊緢澶т竴閮ㄥ垎鏄仛鐩稿叧鐨勫悗鍙板鐞嗐€傜幇鍦ㄦ垜浠篃鐢℉adoop杩涜鍐呭澶勭悊銆佸仛鍨冨溇閭欢杩囨护锛屽唴瀹逛紭鍖栧拰鍐呭绠$悊绛夌瓑锛岃€岄泤铏庢墍鎻愪緵鐨勫唴瀹规湰韬篃鏄瓨鍌℉adoop涓婏紝鎵€浠adoop鍦ㄩ泤铏庢槸寰楀埌浜嗗叏闈㈢殑搴旂敤銆?聽 聽 聽9:59

[Eric Baldeschwieler]:杩欓噷鏄竴浜涗緥瀛愶紝鍦ㄩ泤铏庢墍鐢ㄧ殑涓€浜涘ぇ瑙勬ā鐨凥adoop搴旂敤涓紝Webmap鏄泤铏庢渶澶х殑Hadoop搴旂敤锛屼粖澶¦ebmap70涓皬鏃跺鐞嗚秴杩?90TB鐨勬暟鎹紝Webmap鐨勬暟鎹湪涓嶆柇澧為暱涓紝杩欑澧為暱涓嶄粎浠呮槸鏁版嵁閲忕殑澧炲姞锛屼篃鍖呮嫭绠楁硶澶嶆潅鎬х殑澧炲姞锛屾垜浠儕鍠滅殑鐪嬪埌Hadoop鑳藉寰堝ソ鐨勫鐞嗗鏉傚害鍜屾暟鎹噺鐨勫闀裤€?聽 聽 聽10:1

[Eric Baldeschwieler]:鍙︿竴涓緥瀛愭槸鎴戜滑浣跨敤Jim Gray鎺掑簭鐨刡enchmark锛岀幇鍦ㄦ垜浠篃鍙互鍦?2绉掍箣鍐呮帓搴?TB鐨勬暟鎹€傛垜寰堥珮鍏寸殑鏉ュ睍绀洪殢鐫€Hadoop鎬ц兘涓嶆柇澧為暱锛屽幓骞存垜浠篃鐢ㄤ簡16.25涓皬鏃舵帓搴忎簡涓€涓猅B鐨勬暟鎹€備粖澶╅泤铏庢渶澶х殑Hadoop闆嗙兢鎷ユ湁6000涓粨鐐广€傛湁3200涓唴鏍革紝16TB鐨勭‖鐩樸€?聽 聽 聽10:3

[Eric Baldeschwieler]:涓嬮潰浠嬬粛涓€涓婬adoop瀵逛簬鐢熶骇杩愯惀鐨勫奖鍝嶃€傚緢澶氫汉璁や负Hadoop鑳藉鍑忓皯纭欢鎶曡祫鐨勫紑閿€锛屽疄闄匟adoop杩樿兘澶熸彁楂樺紑鍙戝拰鐮旂┒鐨勬晥鐜囥€備粠杩欎釜鎰忎箟涓婅锛孒adoop瀵规渶鍚庡叕鍙歌繍钀ヤ骇鐢熺殑鏁堢泭鐢氳嚦瑕佹洿澶т簬鍑忓皯纭欢鎶曡祫銆侶adoop鑳藉鎻愰珮浠庣爺鍙戝埌鐢熶骇鐨勮浆绉荤殑鏁堢巼锛孒adoop涔熻璇佹槑浜嗗鏄撳涔狅紝浣垮緱鎴戜滑涓嶉渶瑕佹湁涓撻棬鐨勬妧鏈汉鍛樻潵杩炴帴鐮旂┒鍜岀敓浜т箣闂寸殑宸窛銆?聽 聽 聽10:4

[Eric Baldeschwieler]:涓轰粈涔圚adoop鏈夎繖鏍蜂竴浜涚敓浜ф晥鐜囩殑浼樺娍锛熺涓€銆侀泤铏庢墍澶勭悊鐨勬暟鎹妯″喅瀹氫簡鎴戜滑涓嶅彲鑳芥妸鐮斿彂鍦ㄥ彴寮忕數鑴戜笂杩涜锛屽彧鑳藉湪澶ц妯¢泦缇や笂杩涜銆傝繖灏变娇寰楅泦缇ょ殑绠$悊鎴愪负涓€涓緢澶х殑鎸戞垬锛屽洜涓虹瀛﹀鍙兘浼氳姹傝兘涓嶈兘缁欐垜鍑犵櫨涓満鍣紝鑰屽緢澶氳繖鏍风殑瑕佹眰鐩镐簰涔嬮棿鐨勫浜庤祫婧愮殑绔炰簤锛屽浜庣鐞嗘槸涓€涓緢澶х殑鎸戞垬銆傚悓鏃剁瀛﹀涔熼渶瑕佽姳寰堝鏃堕棿鍘诲鎵惧埌搴曞浣曚娇鐢ㄨ繖涓泦缇わ紝濡備綍浣跨敤璁$畻骞冲彴锛孒adoop鐨勫嚭鐜帮紝浣胯繖浜涘伐浣滃ぇ閲忓噺灏戣繖鏂归潰鐨勫紑閿€锛屼娇寰椾粬浠妸绮惧姏鏇撮泦涓湪鐮旂┒涓娿€備互涓婄殑杩欎簺鏍规湰涓婃敼鍙樹簡闆呰檸鐨勭瀛﹀浠浣曡繘琛岀爺绌跺拰寮€鍙戙€傛垜浠殑鐮斿彂浜哄憳涓嶉渶瑕佹妸鐭ヨ瘑杞Щ缁欏紑鍙戜汉鍛橈紝浠栦滑鍙互鐩存帴寮€鍙戞湁鐢熶骇鍝佽川鐨勪骇鍝併€備粬浠彲浠ヤ娇鐢ㄩ珮绾ц瑷€鐩存帴寮€鍙慗ava銆丳ython銆丳ig銆?聽 聽 聽10:6

[Eric Baldeschwieler]:涓嬮潰鏄竴涓彁楂樼敓浜ф晥鐜囩殑渚嬪瓙銆傛垜浠殑鎼滅储鍔╂墜鍦ㄧ敤鎴疯緭鍏ュ叧閿瘝鐨勬椂鍊欙紝缁欏嚭涓€浜涘缓璁拰鎻愮ず锛屾悳绱㈠姪鎵嬫墍浣跨敤鐨勬暟鎹簱鏄湪Hadoop涓婂缓绔嬬殑銆傝繖涓暟鎹簱鏄粠闆呰檸杩囧幓涓夊勾鐨勬悳绱㈣褰曚腑鐢熸垚鐨勶紝鍦ㄤ娇鐢℉adoop涔嬪墠锛屾垜浠殑寮€鍙戝洟闃熼渶瑕?6澶╃殑鏃堕棿鍘荤敓鎴愯繖涓暟鎹簱锛屽湪浣跨敤Hadoop涔嬪悗鍚屾牱鐨勫伐浣滃彧闇€瑕?0鍒嗛挓瀹屾垚銆傝繖灏辨剰鍛崇潃鎴戜滑鐨勭爺鍙戜汉鍛樺彲浠ュ湪鏁版嵁涓婅繘琛屽疄楠岋紝鐒跺悗蹇€熺殑寤虹珛涓€涓柊鐨勭増鏈紝鑰屼笉闇€瑕佺瓑寰呭緢闀挎椂闂淬€?聽 聽 聽10:7

[Eric Baldeschwieler]:杩囧幓鐨勭増鏈娇鐢–++璇█涔﹀啓锛岃€屽浠婁粬浠敤Python涔﹀啓鏇村姞绠€鍗曘€備粠寮€鍙戞椂闂存潵璁诧紝C++鐨勭増鏈渶瑕?鈥?鍛ㄦ椂闂村紑鍙戯紝鑰岀幇鍦ㄧ殑鐗堟湰鍙渶瑕?鈥?澶╁畬鎴愩€?聽 聽 聽10:9

[Eric Baldeschwieler]:鍙︿竴涓泤铏庣殑鐢熶骇鏁堢巼鎻愰珮鐨勬潵婧愭槸Pig锛屼粖澶╅泤铏庡唴閮ㄧ殑Hadoop鐨勪换鍔℃湁瓒呰繃涓€鍗婃槸浣跨敤Pig涔﹀啓锛屾垜浠殑鐮斿彂浜哄憳鐜板湪鍙敤1/16鐨勫紑鍙戞椂闂达紝Pig纭疄瑕佹洿澶氱殑鏃堕棿锛岃涓ゅ€嶇殑鏃堕棿鍘昏繍琛岃繖浜涗换鍔°€備絾鏄垜浠殑鐮斿彂浜哄憳鏇村叧蹇冪殑鏄粬浠爺鍙戠殑鏁堢巼鑰屼笉鏄繖涓▼搴忚繍琛岀殑鏁堢巼銆傚洜涓轰粬浠涓猴紝濡傛灉浠栦滑鑳藉鎶婁骇鍝佺殑绠楁硶鎻愰珮20鍊嶇殑鏁堢巼锛屼粬浠氨鑳藉浣胯繖涓渶缁堢殑杩愯鏃堕棿鎻愰珮10鍊嶃€傚苟涓旀渶鏂扮増鏈殑Pig鎬ц兘姝e湪涓嶆柇鎻愰珮銆?聽 聽 聽10:10

[Eric Baldeschwieler]:涓嬮潰杩欎釜渚嬪瓙灞曠ずPig涓轰粈涔堝鏄撲娇鐢紝宸﹁竟鏄敤Java浣跨敤鐨勶紝鍙宠竟鏄敤Pig浣跨敤鐨勶紝澶у鍙互鐪嬪埌锛孭ig绠€鍗曞緢澶氥€備笅闈㈡垜璋堜竴涓嬫垜浠Hadoop鐨勪竴浜涙敼杩涖€傚叾涓竴涓垜浠殑宸ヤ綔閲嶇偣鏄彁楂楬adoop鐨勫悜涓嬪吋瀹规€э紝鍚戜笅鍏煎鎬т娇寰楁柊鐗堟湰鐨凥adoop鐨勯儴缃插彉寰楁洿瀹规槗锛?聽 聽 聽10:12

[Eric Baldeschwieler]:鍏舵鎴戜滑瀵规枃浠剁郴缁熻繘琛屾敼杩涳紝澧炲姞浜嗗悓姝ュ拰澧炴坊涓ら」鍔熻兘銆傜涓夈€佹垜浠敼杩涗簡浠诲姟璋冨害鍣紝Hadoop0.20鍖呮嫭浜嗘柊鐨勪换鍔¤皟搴﹀櫒銆傚彟涓€鐐规槸鎴戜滑鏀硅繘浜咹adoop鐨勫畨鍏ㄦ€э紝鏈€鍚庢垜浠彁楂樹簡Hadoop鐨勬€ц兘锛屾彁渚涗簡鏂扮殑banchmark鍜屽伐鍏锋敼鍠凥adoop鎬ц兘銆?聽 聽 聽10:12

[Eric Baldeschwieler]:绗簩锛屽叧浜嶱ig锛屾垜浠负Pig澧炲姞浜哠QL鍜宮etadata銆傛垜浠鍔犱簡鍒楀瓨鍌ㄥ拰澶氭煡璇㈢殑浼樺寲銆備笅涓€涓槸鍏充簬Oozie锛屾槸涓€涓柊鐨勫伐浣滄祦鍜岃皟搴︾殑绋嬪簭銆?聽 聽 聽10:16

[涓绘寔浜?鏌ョぜ]:鎰熻阿Eric銆傜幇鍦ㄦ槸浼戞伅鏃堕棿銆?聽 聽 聽10:38

[涓绘寔浜?鏌ョぜ]:涓嬮潰鏄敱涓浗绉诲姩榛勬檽搴嗛櫌闀挎潵鍋氱簿褰╂姤鍛婏紝璇峰ぇ瀹舵杩庛€?聽 聽 聽10:46

[榛勬檽搴哴:鎴戝氨鐢ㄨ嫳鏂囪锛屾病闂鍚с€傛病闂銆?聽 聽 聽10:47

[榛勬檽搴哴:涔嬪墠鎴戜滑鍚埌浜嗛泤铏庡湪Hadoop涓婄殑璐$尞锛屾垜浠寰楀緢璁╀汉鍗拌薄娣卞埢锛屾垜鍏堣涓€涓嬩腑鍥界Щ鍔ㄥ湪Hadoop涓婇潰鐨勫伐浣溿€備笉浠呮槸鎶€鏈笂鐨勭爺鍙戯紝涔熻涓€涓嬪晢鍝佸寲鐨勬儏鍐点€傛垜璁蹭竴涓嬩腑鍥界Щ鍔ㄥ拰Hadoop鍜屽紑婧愮ぞ鍖轰箣闂寸殑鍏崇郴銆?聽 聽 聽10:48

[榛勬檽搴哴:鎴戜滑鐨勯」鐩彨鍋氬ぇ浜戯紝鎴戜滑璁や负浜戝簲璇ユ槸澶х殑銆傛垜浠殑鐩殑鏄负浜嗗缓绔嬩竴涓郴缁燂紝涓轰簡婊¤冻鎴戜滑鍐呴儴瀵归珮鎬ц兘璁$畻鐨勯渶姹傘€傛垜浠湁36TB鐨勬暟鎹紝鍚屾椂姝e湪蹇€熷闀夸腑銆?聽 聽 聽10:49

[榛勬檽搴哴:绗簩鐐规垜浠墍鍏虫敞鐨勬槸鍙兘浼氬埄鐢ㄨ繖浜涙妧鏈潵寤虹珛涓€涓簰鑱旂綉鐨勬湇鍔″钩鍙帮紝鎴戜滑甯屾湜鑳藉缓绔嬩竴浜涗簯鐨勬湇鍔★紝鑳藉鍑哄敭缁欏叕浼椼€傛渶杩戞垜浠垰鍒氬彂甯冧簡澶т簯鐨?.5鐗堟湰锛屾槸鍩轰簬绋冲畾鐨凥adoop鐗堟湰銆?聽 聽 聽10:49

[榛勬檽搴哴:鎴戜綔涓轰簯璁$畻鍥藉濮斿憳浼氱殑鎴愬憳锛屼篃甯屾湜杩欎釜鑳藉涓哄浗瀹剁綉缁滃仛鍑轰竴浜涜础鐚€傛垜浠皢浠婂悗鐨勪笟鍔″垎鎴愪笁涓柟鍚戯紝绗竴銆佸熀纭€鏋舵瀯銆傜浜岄儴鍒嗘槸骞冲彴绾х殑鏈嶅姟銆傝繖涓€閮ㄥ垎鎴戜滑浼氱潃閲嶄簬鏀惰垂銆佹湇鍔$瓑鏂归潰銆傚熀浜庤繖涓ゆ柟闈箣涓婏紝鎴戜滑甯屾湜鑳芥彁渚涒€滆蒋浠跺嵆鏈嶅姟鈥濄€傛垜浠殑鐩殑鏄府鍔╀腑灏忎紒涓氭潵鍑忓皯浠栦滑鐨処T鎴愭湰鍜屽鏉傛€с€傛垜浠篃鍚屾椂鎻愪緵鍔炲叕鑷姩鍖栫殑瑙e喅鏂规锛屾垜浠笇鏈涘皢鏉ユ垜浠彲浠ュ埄鐢ㄤ簯璁$畻鐨勬妧鏈潵瀹炵幇杩欎簺璁炬兂銆?聽 聽 聽10:53

[榛勬檽搴哴:杩欐槸鎴戜滑澶т簯鐨勬灦鏋勫浘銆傛垜浠娇鐢╔en浣滀负搴曞眰銆傚湪姝や箣涓婃垜浠疄鐜颁簡澧炲己鐨凞FS浣滀负瀛樺偍骞冲彴锛岃繃鍘绘垜浠槸寤虹珛鏈嶅姟锛岃蒋浠讹紝骞朵氦鐢辨墭绠′笟鍔°€傛垜浠笇鏈涙柊鐨勫钩鍙拌兘澶熷畬鍏ㄦ牴鏈€х殑鏀瑰彉Internet宸ヤ笟鐨勬牸灞€锛屼笉闇€瑕佽喘涔扮‖浠惰澶囧拰寮€鍙戣蒋浠讹紝浜嬪疄涓婂浗闄呬笂鏈夊緢澶氫簰鑱旂綉浼佷笟宸茬粡鏄熀浜庤繖涓ā寮忚繍琛屻€?聽 聽 聽10:59

[榛勬檽搴哴:鍦ㄨ繖鍎挎垜浼氳涓€涓嬫垜浠湪Hadoop涓婂仛鐨勪竴浜涘伐浣溿€傛垜浠缓绔嬩簡涓€涓鐞嗙郴缁燂紝鎴戜滑甯屾湜鑳藉鎴愪负涓ぎ绠$悊妯″潡锛屽彨鍋欳loudMaster銆傛垜浠篃鑺变簡涓€浜涚簿鍔涜В鍐矵adoop鐜版湁鐨勪竴浜涢棶棰樸€傛垜浠鍔犱簡澶氬悕瀛楃粨鐐癸紝鎴戜滑杩樿繘琛屼簡涓€浜涙暟鎹寲鎺樺拰鎼滅储鐨勫紑鍙戙€傝繖涓嶄粎浠呭彲浠ヨ搴旂敤浜庝簰鑱旂綉琛屼笟锛屾洿鍙互骞挎硾搴旂敤浜庡箍涔夌殑鏁版嵁鎸栨帢鏂归潰銆傚湪姝や箣涓婂ぇ瀹跺彲浠ョ湅鍒帮紝鎴戜滑寤虹珛浜嗗緢澶氬簲鐢ㄣ€備粖澶╂垜浠湁涓€涓?56涓粨鐐圭殑Hadoop绯荤粺锛屽叡鏈?024涓狢PU锛岃繖鏄竴涓爺绌舵€х郴缁燂紝鎴戜滑甯屾湜鏄庡勾寤虹珛鏇村ぇ鐨勭敤浜庣敓浜х殑闆嗙兢銆傛垜浠姣斾簡浼犵粺鐨勯珮鎬ц兘璁$畻瑙e喅鏂规鍜孒adoop锛屽悓鏍风殑鎴愭湰涓嬶紝鎴戜滑鍙互寰楀埌1鈥?鍊嶇殑鎬ц兘澧炲姞銆?聽 聽 聽11:0

[榛勬檽搴哴:鎴戞兂鐗瑰埆璋堜竴涓嬫暟鎹寲鎺樿繖涓簲鐢紝鎴戜滑寮€鍙戜簡涓€浜涘熀浜嶩adoop鐨勭畻娉曪紝鍏朵腑鏈変竴浜涙槸缁忓吀鐨勬暟鎹寲鎺樼畻娉曪紝鎵€浠ユ垜浠凡缁忓皢浠栦滑浣跨敤鍦ㄥ緢澶氬疄闄呯敓浜ц繍琛屼腑銆傛垜浠瘯鍥炬寲鎺樼敤鎴峰叧绯伙紝閫氳繃鐢ㄦ埛鐨勬棩蹇楋紝鍜屼紶缁熺郴缁熺浉姣旓紝杩欎釜绯荤粺浣跨敤浜?/6鐨勬垚鏈疄鐜颁簡6鍊嶇殑鎬ц兘銆?聽 聽 聽11:5

[榛勬檽搴哴:涓嬩竴鐐规垜瑕佽皥鐨勬槸HDFS鐨勫悕瀛楃粨鐐圭殑鎵╁睍銆傚鏁板叕鍙歌涓哄崟涓€鍚嶅瓧缁撶偣宸茬粡瓒冲锛屼絾鏄浜庨€氫俊浼佷笟鏉ヨ锛岃繖灏辨槸涓€涓棶棰橈紝鎵€浠ユ垜浠璁′簡涓€涓鍚嶅瓧缁撶偣鐨勬灦鏋勩€傚綋鐒舵垜浠鍔犲悕瀛楃粨鐐逛細澧炲姞鎴愭湰锛屼絾鏄綘鎵€寰楀埌鐨勬槸楂樺彲闈犳€у拰澧炲姞鐨勬€ц兘銆傛垜浠笇鏈涜兘澶熷拰Hadoop鐨勫紑婧愮ぞ鍖鸿繘琛屼氦娴侊紝灏嗚繖涓€閮ㄥ垎璐$尞缁欏ぇ瀹躲€傛垜浠垰鍒氬紑濮嬪拰寮€婧愮ぞ鍖鸿繘琛屼氦浜掞紝鎴戝笇鏈涜兘澶熸洿澶氱殑澧炲姞瀵瑰紑婧愮ぞ鍖虹殑璐$尞銆傛垜浠笇鏈涜窡闆呰檸澧炲姞鍚堜綔锛屽悓鏃舵垜浠篃鎰挎剰寰堢Н鏋佺殑鍙備笌鍒板紑婧愮ぞ鍖虹殑寮€鍙戜腑銆?聽 聽 聽11:7

[榛勬檽搴哴:涓嬮潰鏄垜瀵瑰紑婧愮ぞ鍖虹殑涓€浜涘缓璁€傛垜浠鍒颁簡Hadoop鐢ㄦ埛鍦ㄩ閫熷闀匡紝鎴戜滑甯屾湜鏈変竴涓洿鍏ㄧ悆鎬х殑寮€鍙戣础鐚€傛垜寰堥珮鍏寸湅鍒?2%鐨勮础鐚潵鑷泤铏庯紝浣嗘槸鎴戜滑璁や负瀵笻adoop闀胯繙鍙戝睍杩欏苟涓嶆槸涓€涓渶濂界殑鐜拌薄锛屾垜浠笇鏈涚敤Hadoop鐨勭敤鎴烽兘鏈変竴浜涜础鐚€?聽 聽 聽11:8

[榛勬檽搴哴:绗簩銆佹垜甯屾湜鑳藉寤虹珛涓€浜涘熀浜庡紑婧愮ぞ鍖虹殑浜戣绠楄鑼冩爣鍑嗭紝浣垮緱涓嶅悓鐨勫簲鐢ㄨ兘澶熼伒寰繖浜涙爣鍑嗕粠鑰屼笉闇€瑕佸彧缁戝畾鍦ㄤ竴涓钩鍙颁笂銆備竴涓緥瀛愭槸浜氶┈閫婄殑浜戣绠楀簲鐢紝鐢ㄦ埛鍙兘甯屾湜鑳藉杩愯鍦ㄥ彟涓€涓潪浜氶┈閫婄殑骞冲彴涓娿€傚彟涓€鐐规槸鎴戜滑甯屾湜鏈夋洿澶氱殑绀惧尯寮€鍙戜氦娴佹椿鍔ㄣ€傚寘鎷ぇ鍨嬬殑浼氳鎴栬€呮槸灏忓瀷鐨勭爺璁ㄤ細銆?聽 聽 聽11:12

[榛勬檽搴哴:鏈€鍚庝竴鐐?涓浗绉诲姩浼氱户缁敮鎸丠adoop in China鐨勫ぇ浼氥€備腑鍥界Щ鍔ㄥ皢浼氳禐鍔╀笅涓€灞婄殑Hadoop澶т細銆?聽 聽 聽11:12

[涓绘寔浜?鏌ョぜ]:涓嬩竴涓姤鍛婃槸Facebook鐨勯偟閾潵鍋氥€?聽 聽 聽11:13

[閭甸摦]:璋㈣阿澶у锛屾垜闈炲父楂樺叴浠婂ぉ绗笁娆℃潵鍒拌繖涓ぇ浼氫笂锛屾潵缁欏ぇ瀹跺垎浜竴浜汬adoop浣跨敤鐨勭粡楠屽拰浣撲細锛屽垰鎵嶉粍闄㈤暱璁插埌Hadoop闇€瑕佸ぇ瀹剁殑鏀寔鍜屽ぇ瀹剁殑璐$尞锛屼粖澶╂垜灏辨兂浠ive涓轰竴涓緥瀛愶紝鍦℉adoop涔嬩笂杩涜寮€鍙戣础鐚殑涓€浜涗綋浼氥€?聽 聽 聽11:15

[閭甸摦]:涓嬮潰鏄畝瑕佺殑涓€涓椂闂磋〃锛岃繖涓椂闂磋〃璁板綍浜咹ive鍙戝睍杩囩▼褰撲腑涓変釜涓昏鐨勯樁娈碉紝绗竴涓樁娈垫槸鍑嗗鐨勯樁娈碉紝浠?007骞翠腑寮€濮嬶紝鍦‵acebook鐢熶骇鐨勭幆澧冨綋涓紝浼犵粺鐨勬暟鎹粨搴撶殑瑙e喅鏂规锛屾垜浠彂鐜伴潪甯稿鐨勬寫鎴橈紝杩欎篃鏄负浠€涔堟垜浠綋鏃跺湪鍒嗘瀽姣旇緝鍚勭鍚勬牱鐨凷olution鍚庯紝鎶奌adoop浣滀负鏂规鐨勫熀鐭炽€傜浜屼釜闃舵鏄?8骞村紑濮嬬殑锛岀涓変釜闃舵鏄幓骞?鏈堜唤寮€濮嬬殑銆備笅闈㈡垜浠竴涓€鏉ヤ粙缁嶄竴涓嬩袱涓樁娈垫墍缁忓巻鐨勪富瑕佽繃绋嬪拰涓€浜涘喅瀹氥€?聽 聽 聽11:16

[閭甸摦]:2007骞翠腑鐨勬椂鍊欙紝Facebook閬囧埌浜嗘暟鎹粨搴撶殑鍙几缂╂€ч棶棰橈紝褰撴椂鎴戜滑鏁版嵁闈炲父澶э紝杩欏紶鍥炬槸鎴戜滑鏈€鏈€绠€鍗曠殑涓€涓郴缁熺粨鏋勶紝鎴戜滑褰撴椂澶х害鏈?000鍙扮殑HTVBserver锛屽悓鏃舵帴鍙楃敤鎴风殑璇锋眰锛屽悓鏃朵骇鐢熷ぇ閲忕殑鈥滄媺浜斺€濈殑鏁版嵁锛屾垜浠褰曞湪绗笁鏂规彁渚涚殑杩欑澶у瀷鐨勭綉缁滃瓨鍌ㄨ澶囦笂锛屾垜浠娇鐢ㄧ殑绯荤粺闈炲父闈炲父鐨勭ǔ瀹氾紝涔熼潪甯搁潪甯告槀璐碉紝瀛樺偍閲忛潪甯稿ぇ锛屼絾鏄笉鏄壒鍒ぇ锛屾瘡涓満鍣ㄥ瓨鍌ㄩ噺50鈥?00涓猅B杩欐牱鐨勪竴涓噺绾э紝鍚屾椂鎴戜滑鏈夊緢澶氭暟鎹瓨鍌ㄥ叾涓紝鎵€鏈夊仛鏁版嵁澶勭悊鐨勬椂鍊欙紝鏁版嵁浠撳簱閫氳繃20鍙版垜浠彨dataWorkers鏉ュ疄鐜扮殑锛屽綋鏃跺嚭鐜伴棶棰樺氨鏄垜浠彂鐜伴渶瑕佷娇鐢ㄨ秴杩?0灏忔椂鏃堕棿锛屾墠澶勭悊涓€澶╃殑鏁版嵁锛屽彲瑙佷笉涔呯殑灏嗘潵锛屽鐞嗘暟鎹氨浼氳秴杩囦竴澶╋紝杩欐椂鍊欐垜浠氨娌℃湁鍔炴硶璺熶笂搴旂敤鐨勯渶姹傘€傝繖涓椂鍊欐垜浠氨寮€濮嬪垎鏋愭垜浠嚜宸卞叕鍙哥殑涓€浜涙儏鍐碉紝鐒跺悗鍦ㄥ悇涓笉鍚岀殑trace褰撲腑閫夋嫨鑷繁鐨勪竴涓猄olution锛屽綋鏃惰€冭檻鍑犱釜闇€姹傦紝绗竴涓槸鍙几缂╂€э紝鎴戜滑鏁版嵁澧為暱閲忛潪甯搁潪甯稿揩锛屽綋鏃堕璁℃槸5鈥?0鍊嶄箣闂达紝杩欎釜鍙几缂╂€ц姹傞潪甯搁潪甯搁珮锛屾垜浠笇鏈涜繖涓郴缁熸敮鎸佸嚑鐧惧彴鍒版暟鍗冨彴鏈虹兢鐨勮妯°€傜浜屻€佸紑鏀炬€э紝鎴栬€呰鐏垫椿鎬э紝鍥犱负鎴戜滑甯屾湜杩欎釜绯荤粺鑳藉闈炲父瀹规槗鍔犲叆鏂扮殑鍔熻兘锛岃繖鏍风殑璇濇垜浠湪閬囧埌鎴戜滑鏂伴棶棰樼殑鏃跺€欙紝寰堝鏄撲慨鏀瑰師鏉ョ殑Solution鏉ヨВ鍐炽€傜涓夈€佹椂闂达紝鏃堕棿闈炲父绱у紶锛屾垜浠笇鏈涘敖蹇帹鍑鸿繖鏍蜂竴涓郴缁熸弧瓒虫垜浠殑涓氬姟闇€姹傘€?聽 聽 聽11:21

[閭甸摦]:褰撴椂涓昏鐨勯€夋嫨鏈夊洓涓紝绗竴銆佷娇鐢ㄧ涓夋柟涓撴湁鐨勭郴缁燂紝鎴栬€呮垜浠彲浠ヤ粠澶村紑濮嬶紝鏉ュ垱寤轰竴涓柊鐨勭郴缁燂紝鎴栬€呮垜浠氨浠嶩adoop涔嬩笂锛屾垨鑰呬粠鍏朵粬鐨勫叆鎵嬨€傛垜浠綋鏃跺伐绋嬪笀灏戜簬10涓伐绋嬪笀锛屽ぇ閮ㄥ垎鐨勫伐绋嬪笀鐨勬椂闂撮兘鏄敤鏉ユ敮鎸佺嚎涓婄殑涓€浜涙湇鍔★紝灏辨槸鎴戜滑鐨勪竴浜汦TL锛岃繖浜涙暟鎹€庝箞鎶婁粬浠庡湪绾跨殑绯荤粺鍙栦笅鏉ワ紝鏀惧埌鎴戜滑鏁版嵁浠撳簱褰撲腑锛屾€庝箞浠庝腑浜х敓涓€浜涙暟鎹殑鎶ュ憡銆傛垜浠‘瀹炰篃鍦ㄤ笉鍋滅殑鎯宠鎷涜仒鏇村鐨勫伐绋嬪笀锛屼絾鏄嫑鑱樻洿澶氫汉锛屽苟涓嶆槸闈炲父瀹规槗锛岀壒鍒槸鎵惧埌寰堝悎閫傜殑浜猴紝鍩轰簬杩欎簺鍥犵礌锛屾垜浠仛涓€浜涘垎鏋愶紝棣栧厛鎴戜滑鎺掗櫎绗笁鏂逛笓鏈夋柟妗堬紝棣栧厛浠栭潪甯告槀璐碉紝骞朵笖涓嶆槸寰堢伒娲伙紝鎴戜滑鎯冲鍔犳柊鐨勫姛鑳斤紝闇€瑕佸拰绗笁鏂瑰巶鍟嗚仈绯伙紝璁稿寰堝鐨勬椂闂存墠鑳藉姞鍏ユ柊鐨勫姛鑳斤紝骞朵笖澶у鏁扮涓夋柟鍘傚晢锛屼粬浠€冭檻鐨勫簲鐢ㄦ柟妗堟槸缁欎腑灏忓瀷鐨勫叕鍙镐娇鐢ㄧ殑锛岄拡瀵圭◢寰ぇ鍨嬬殑鍏徃锛屽緢闅炬弧瓒虫垜浠殑闇€姹傘€?聽 聽 聽11:22

[閭甸摦]:绗簩銆佹垜浠鏋滀粠澶村紑濮嬬殑璇濓紝灏嗚鑺辫垂宸ㄥぇ鐨勬椂闂达紝杩欎篃鏄垜浠竴寮€濮嬫帓闄ょ殑鏂规锛屾垜浠瘮杈僅adoop鍜屽叾浠栫殑鏂规鐨勬椂鍊欙紝瀹冪殑鎬ц兘鍙兘涓嶆槸鏈€濂界殑锛屼粬鐨勬綔鍔涙槸鏈€楂樼殑锛屽洜涓鸿繖浜涘師鍥犳垜浠渶缁堥€夋嫨浜咹adoop杩欐牱鐨勬柟妗堛€傚綋鏃舵垜浠娇鐢?.15鐨勮繖涓増鏈紝褰撴椂閬囧埌寰堝bug锛岄兘淇浜嗭紝浣嗘槸娌℃湁閬囧埌澶х殑闂锛孒adoop鎴戜滑鎰熻涓昏鐨勪紭鍔挎槸涓ょ偣锛岀涓€銆佷粬鐨勫彲浼哥缉鎬ч潪甯稿己锛岄泤铏庡叕鍙稿Hadoop涓嶉仐浣欏姏鐨勬敮鎸侊紝涓€鐩村埌鐜板湪锛岀ぞ鍖轰篃鍦ㄤ笉鏂殑鎵╁睍锛屾洿澶氱殑鍏徃鍔犲叆杩欎釜绀惧尯锛岃璁洪潪甯哥儹鐑堬紝鏈夊緢澶氬叕鍙稿湪浣跨敤杩欎釜绯荤粺锛屼篃浣挎垜浠寮轰簡鎴戜滑浣跨敤杩欎釜绯荤粺鐨勪俊蹇冦€傛墍浠ユ垜浠涓篐adoop鏈夐潪甯稿ぇ鐨勬綔鍔涖€?聽 聽 聽11:25

[閭甸摦]:褰撶劧涔熸湁涓€浜涚己鐐癸紝褰撴椂璁や负Hadoop鎬ц兘杩樻湁涓€浜涢棶棰橈紝鎴戜滑璁や负杩欎釜鎬ц兘涓嶆槸澶х殑闂锛孒adoop design寰堝鏄撹В鍐崇殑锛屾瘮濡傝浣跨敤Java language閮戒笉鏄潪甯搁毦瑙e喅銆傜浜屼釜闂锛岀敤璧锋潵涓嶆槸闈炲父鏂逛究锛屽鏋滄瘡涓柊鐨勫憳宸ュ涔犳槸闈炲父澶х殑闂锛屽綋鏃舵垜浠繘琛孒ive鐨勪竴浜涘疄楠岋紝涓昏灏辨槸鍥犱负鎴戜滑鍏徃鐨勫唴閮ㄩ櫎浜嗚繖涓伐绋嬪笀浠ュ锛岃繕鏈変竴浜涘仛鏁版嵁鍒嗘瀽鐨勶紝浠栦滑涔熷笇鏈涗娇鐢ㄨ繖涓郴缁燂紝浠栦滑鍙細浣跨敤language锛屽湪Hadoop涔嬩笂锛屾湁鏇撮珮灞傛鐨刲anguage锛屾病鏈夋敮鎸佺殑锛屾垜浠紑濮嬭繘琛屾渶绠€鍗曠殑浣跨敤锛屽綋鐒朵笉鏄娇鐢╨anguage锛屼絾鏄潪甯搁潪甯告湁鐢紝鐢熶骇鐜妭褰撲腑鏈変竴浜涚幆鑺備娇鐢ㄦ垜浠繖涓郴缁熶簡锛岃繖浣垮緱鎴戜滑鏇村姞鐩镐俊杩欐槸涓€鏉℃纭殑閬撹矾锛屾墍浠ユ垜浠粠閭d釜鏃跺€欏紑濮嬶紝瀵笻ive project鍋氫簡鏇撮暱杩滅殑瑙勫垝锛屾姇鍏ユ洿澶氱殑璧勬簮鍘诲紑鍙戙€?聽 聽 聽11:29

[閭甸摦]:褰撴椂鎴戜滑鑰冭檻鐨勪富瑕佺殑浼樺厛绾ф湁涓ゆ潯锛屼竴涓槸鎴戜滑鍦ㄤ竴寮€濮嬬殑鏃跺€欙紝灏卞笇鏈涜兘澶熷緱鍒颁竴涓瘮杈冨ソ鐨勮繖鏍蜂竴涓璁★紝鍥犱负濂界殑璁捐锛岃兘澶熶娇寰楁垜浠琾roject璧板緱鏇磋繙銆傚綋鏃跺熀浜庤繖涓ょ偣鐨勮€冭檻锛屾垜浠病鏈夋妸project鐩存帴缁檕pen source銆傛垜浠綋鏃跺樊涓嶅鏈?0涓伐绋嬪笀鍦‵B鍐呴儴锛屾潵杩涜杩欎簺璁捐鍜屽紑鍙戯紝鐢ㄤ簡澶х害灏嗚繎6涓湀鐨勬椂闂存帹鍑轰簡Hive鐨勭涓€涓増鏈紝褰撴椂鏈変竴浜涜繖浜涜璁★紝鍏跺疄鎴戜滑涔熸槸閫氳繃涓€浜涙笭閬搊pen source committee锛屽儚閭欢鍒楄〃鎴栬€呮槸涓€浜涗細璁紝鍍弌pen source committee鏈変竴浜涘睍绀猴紝浣嗘槸娌℃湁璁╁畠鍔犲叆璁ㄨ锛岃繖鏍蜂細浣挎垜浠琾roject杩涘害浼氬彉鎱紝2008骞?鏈堜唤鐨勬椂鍊欙紝绗竴涓彲鐢ㄧ殑鐗堟湰锛屾槸缁橦adoop 0.17鐗堟湰鐢ㄧ殑锛屼负浠€涔堟垜浠妸Hive鐢ㄤ簬open source鍛紝瀵逛簬涓€涓叕鍙告潵璇达紝鏈韩宸ョ▼甯堢殑璧勬簮閮芥槸鏈夐檺鐨勶紝瑕佹敮鎸佷竴涓緢澶ц妯$殑椤圭洰锛屽緢涓嶅鏄擄紝鑰孒ive project鏄瘮杈冩櫘閫傜殑project锛屼笉绠℃槸寤鸿鍜屾剰瑙佷篃濂斤紝杩樻槸浣跨敤鐨勭粡楠屼篃濂斤紝杩樻槸鐩存帴鏈変唬鐮佺殑涔熷ソ锛屽Facebook涔熸湁濂藉锛孎B鎴戜滑涓€鐩存妸鑷繁浣滀负涓€涓妧鏈叕鍙告潵瀵瑰緟锛屾垜浠鏍戠珛鍦ㄦ妧鏈涓氶噷鐨勫舰璞★紝Hive杩涗竴姝ュ姞寮轰簡鎴戜滑鍏徃杩欎釜褰㈣薄锛岃繖涓粨鏋滃鑷存垜浠嫑鑱樻柊鍛樺伐鐨勬椂鍊欙紝鏈夊緢澶х殑濂藉锛屽緢澶氬憳宸ワ紝寰堝杩欑鎴戜滑鍏徃鎷涜仒鐨勪汉锛屼粬浠簨鍏堥兘鐭ラ亾锛孎acebook鍦∣pen source棰嗗煙鐨勪竴浜涜础鐚紝鏂扮殑鍛樺伐鍔犲叆鎴戜滑鍏徃鐨勬椂鍊欙紝浠栦滑寰堝彲鑳藉凡缁忓浼氫簡浣跨敤Hive杩欎釜绯荤粺锛屽姞鍏ュ叕鍙哥洿鎺ュ紑濮嬪伐浣滐紝鑰屼笉闇€瑕佷竴浜涢澶栫殑鍩硅锛屾€讳綋鏉ヨ澶уぇ鍑忓皯鎴戜滑鍦ㄧ爺鍙戞柟闈㈢殑璐圭敤銆?聽 聽 聽11:32

[閭甸摦]:瀵逛簬鍏朵粬鍏徃鏉ヨ锛孒ive鏄竴涓瘮杈冮€氱敤鐨勮繖鏍蜂竴涓猻olution锛屽鍏朵粬鍏徃涔熷彲浠ヨ妭鐪佸ぇ閲忕殑璧勬簮锛屽瀛︽湳鐣屾潵璁诧紝Hive宸茬粡鎴愪负涓€涓爺绌剁殑骞冲彴锛屽凡缁忔湁鑻ュ共绡囨枃绔犲彂琛ㄥ湪涓栫晫椤剁骇鐨勪細璁箣涓婏紝鎴戜滑璁や负杩欐牱涓€绉嶄妇鍔ㄥ彲浠ヨВ鍐崇ぞ浼氬綋涓殑閲嶅鍔冲姩锛屾彁楂樼ぞ浼氱殑璧勬簮鍒╃敤鐜囥€?聽 聽 聽11:33

[閭甸摦]:涓嬮潰灏辨槸Hive鍦?008骞?鏈堬紝鏍稿績鐨勭郴缁熶竴瀹氳闈炲父绠€鍗曪紝骞朵笖鏄澗鏁e瀷鐨勭粨鏋勶紝鎴戜滑鎶婄郴缁熺殑鎺ュ彛鍏ㄩ儴閮給pen锛岃繖鏍峰埄鐢ㄥ叾浠栧叕鍙稿拰涓汉鍔犲叆寮€鍙戠殑杩囩▼锛屾潵鍋歝ompetition锛屽悓鏃跺姞鍏ョ殑鏃跺€欙紝鎴戜滑涔熷悓鏃惰€冭檻鍏徃鍐呴儴鐨勯渶姹傚拰鏁翠釜绀句細鐨勯渶姹傦紝鍦ㄤ袱涓箣闂村仛涓€涓瘮杈冨ソ鐨勬潈琛★紝浠g爜搴撳瓨鍌‵acebook鍐呴儴鐨勪唬鐮佸彧鏄湪Apache浠g爜搴撶殑鎷疯礉锛屾垜浠畾鏈熺殑鎶夾pache娴佸埌Facebook锛岃繖鏍锋垜浠彲浠ユ帶鍒舵柊鐨勫姛鑳斤紝姣忔鎴戜滑绉诲埌鏂扮殑鐗堟湰鐨勬椂鍊欙紝閮介渶瑕佸仛寰堝寰堝娴嬭瘯锛孎acebook涔熸湁涓€浜涗笓鏈夌殑璇撅紝鍜屾垜浠笟鍔$浉鍏筹紝杩欎簺璇惧拰Hive鏈夊叧绯伙紝浣嗘槸杩欎簺璇惧彧鏈塅B鍐呴儴鎵嶆湁銆傚彟澶栦竴鏂归潰锛屽叧浜庤璁轰互鍙婁竴浜涘紑鍙戝埌搴曟槸鎬庝箞鏍峰幓缁勭粐锛屾垜浠篃鏄ぇ閲忛噰鐢ㄦ潵缁勭粐璁ㄨ锛岃繖鏍风殑濂藉锛屽ぇ瀹堕兘鍙互寰堝鏄撶殑鐪嬪埌鎴戜滑Hive鍙戝睍鐨勮繃绋嬶紝鍚庢潵浜猴紝鏂板姞鍏ョ殑浜猴紝寰堝鏄撲簡瑙ive褰撳垵鍋氫竴浜涜璁$殑鏃跺€欙紝褰撴椂鐨勮€冭檻鏄粈涔堬紝鎴戜滑鍙戠幇杩欎竴鐐规槸闈炲父闈炲父鐨勫ソ銆?聽 聽 聽11:36

[閭甸摦]:鍐呴儴涔熸湁涓€浜涘伐鍏凤紝浣嗘槸鍐呴儴鐨勫伐鍏凤紝Facebook鍐呴儴鐨勫伐鍏凤紝鍙槸鐢ㄦ潵鍋欶BFacebook鍐呴儴璇勬祴鐨勪娇鐢紝杩欎簺淇℃伅娌℃湁蹇呰锛屾垜浠篃涓嶄細鎶婂畠鍏竷鍒板闈㈠幓锛屽澶栭潰鐨勫叕鍙镐及璁′篃涓嶄細鏈変粈涔堝府鍔┿€傚浜庢柊鐢ㄦ埛锛屽姞鍏ュ埌Hive杩欎釜棰嗗煙鐨勬柊鐢ㄦ埛锛屾垜浠€氳繃閭欢鍒楄〃鍜屽叾浠栦竴浜涙柟寮忔彁渚涗竴浜涙敮鎸侊紝鐜板湪瓒婃潵瓒婂鏈夋瘮杈冪啛缁冪殑杩欎簺Hive鐢ㄦ埛甯姪鏂扮敤鎴疯В鍐抽棶棰橈紝閫愭笎褰㈡垚浜嗘鍚戠殑姝e弽棣堛€?聽 聽 聽11:37

[閭甸摦]:鐜板湪鎴戜滑鍐嶆潵妫€鏌ヤ竴涓婬ive鍒板簳鏄粈涔堟牱鐨勬儏鍐碉紝鍦ㄤ粖骞村澶╃殑鏃跺€欙紝鎴戜滑瀵笻ive鐨勬€ц兘鍋氫竴涓瘎娴嬶紝璇勬祴鐨勭粨鏋溿€傛垜浠粠Open鑰宻ource褰撲腑瓒呰繃鏈夆€滃湴澶栦簡閾衡€濆姞鍏ヤ簡Hive鐨勫紑鍙戯紝鎻愪緵浠g爜瓒呰繃100涓紝杩樻湁寰堝寰堝decision锛屾墍鏈夎繖浜涢兘鏄獙璇佷簡鎴戜滑褰撴椂鍋欻ive鐨勬椂鍊欙紝鎶婁粬open source鍔犲叆鎴戜滑鐨勫紑鍙戯紝骞朵笖鍦ㄦ帴鍙楁柟闈紝鎴戜滑鍏徃鎷涜仒鐨勬椂鍊欙紝鏂扮殑鍛樺伐宸茬粡浜嗚В鍒版垜浠殑绯荤粺锛屽浜庡鏈晫涔熻捣鍒颁簡涓€浜涗績杩涚殑浣滅敤锛屼笅涓€椤垫垜浠湅瀛︽湳鐣岃繖鏂归潰鐨勬儏鍐点€?聽 聽 聽11:39

[閭甸摦]:鎴戜滑鍐欎簡涓€绡囨枃绔狅紝寮曠敤Hive鐨勬枃绔犲凡缁忔湁涓夌瘒锛岄兘鏄瘮杈冮《绾х殑浼氳銆傛垜浠兂閫氳繃杩欎簺灏卞彲浠ユ樉绀哄嚭鎴戜滑褰撴椂Open source鐨勭洰鏍囧凡缁忓緱鍒板緢濂界殑瀹炵幇銆?聽 聽 聽11:39

[閭甸摦]:鍏徃鍐呴儴鏉ヨ锛岃繖涓彲浼哥缉鎬х殑闂涔熷緱鍒颁簡姣旇緝濂界殑瑙e喅锛屾垜浠幇鍦ㄦ湁600鍙版満鍣紝姣忎袱鍛ㄦ垜浠細鍔犲叆涓€浜涙柊鐨勬満鍣紝鍏蜂綋涓€浜涚粏鑺傛垜浠細鍦ㄤ笅鍗堟湁涓€涓叿浣撶殑浠嬬粛锛屽浜庢垜浠郴缁熺粨鏋勪富瑕佺殑鏀瑰彉锛屽師鏉?0鍙版満鍣ㄦ敼鎴?00鍙版満鍣ㄧ殑Hadoop銆?聽 聽 聽11:40

[閭甸摦]:绾佃杩欎釜杩囩▼锛屾垜浠綋浼氬埌锛屽湪Hadoop committee褰撲腑锛屽拰澶у鍗忎綔鏈変笁涓樁娈碉紝涓€寮€濮嬫槸浣跨敤Hadoop杩欎釜杞欢锛屽洜涓哄繀椤伙紝鎴戜滑棣栧厛浣跨敤杩欎釜杞欢锛屾劅瑙夎繖涓蒋浠跺鎴戜滑鐨勫叕鍙革紝鎴栬€呮槸瀛︽牎鏈夊府鍔╋紝鎴戜滑鎵嶆洿鏈夊叴瓒e幓鍔犲叆Hadoop committee锛屼娇鐢℉adoop杩欎釜杞欢浠ュ悗锛屼細鍙戠幇鏈変竴浜涢棶棰橈紝鍙戠幇杩欎簺闂鎴戜滑灏卞彲浠ュ姞鍏ワ紝鎱㈡參绠€鍗曞仛涓€浜涘紑濮嬶紝瀵逛唬鐮佽繘涓€姝ョ啛鎮夛紝鐔熸倝Open source绠$悊鏂瑰紡锛屼互鍚庢湁闇€姹傜殑鏃跺€欙紝鎴戜滑鍙互寮€濮嬩竴涓柊鐨勯」鐩紝杩欎釜椤圭洰鍙互鍩轰簬Hadoop涔嬩笂锛屽儚杩欏紶鍥句笂鎵€鐢荤殑锛屾垜浠苟娌℃湁浠庡ご寮€濮嬶紝鎶婃暣涓郴缁熼兘鎼缓璧锋潵锛屾垜浠熀浜庡凡鏈夌殑绯荤粺杩涜鎼缓锛岃繖鏍风殑鏂瑰紡浣挎垜浠泦涓簿鍔涳紝鎶婁竴灏忓潡涓滆タ鍋氬ソ銆傚彟澶栦竴鐐规兂璁茬殑锛屽ぇ瀹跺彲鑳藉彂鐜癏ive鍜孭ig鏈変竴浜涚浉浼间箣澶勶紝浣嗘槸鍏跺疄鍦ㄨ璁′笂杩樻槸鏈変竴浜涘簳灞傜殑鍖哄埆锛屽湪open source閲岄潰涔熶笉鏄敮涓€鐨勩€?聽 聽 聽11:41

[閭甸摦]:鏈€鍚庤繖涓粨璁哄氨鏄紝鎴戜滑闈炲父楂樺叴涓€寮€濮嬪湪2007骞翠腑鐨勬椂鍊欙紝鎴戜滑灏卞仛浜嗕竴涓潪甯搁潪甯稿ソ鐨勫喅瀹氾紝鎴戜滑褰撴椂鎺ュ彈浜咹adoop杩欐牱涓€涓猻olution锛?008鍚庢湡锛屼竴璧锋潵寮€鍙戣繖涓」鐩紝鎴戜滑闈炲父甯屾湜鑳藉鍜宱pen source committee涓€璧峰悎浣滐紝甯屾湜鏇村鐨勪汉鍔犲叆杩欎釜鍦堝瓙褰撲腑锛屽鏋滄暣涓繃绋嬪綋涓湁涓€浜涢棶棰橈紝娆㈣繋浼氬悗鍜屾垜鑱旂郴锛岃繖涓ぇ姒傚氨鏄垜浠婂ぉ璁茬殑鎵€鏈夌殑涓滆タ锛岃阿璋㈠ぇ瀹躲€?聽 聽 聽11:41

[Christophe Bisciglia]:鎴戜粖澶╄璁蹭竴涓婬adoop鐨勫巻鍙蹭互鍙婃€庝箞鏍峰湪Hadoop褰撲腑鏉ュ府鍔╃敤鎴锋潵浣跨敤Hadoop杩欎釜绯荤粺锛岃繖涓槸璁睭adoop鐩稿叧鐨勪竴浜涘巻鍙诧紝2004骞寸涓€绡嘓adoop鐩稿叧鐨勬枃绔狅紝鍦?005骞达紝Hadoop鐨勫紑鍒涗汉寮€濮嬪垱寤篐adoop鐨勫師褰紝2006骞碒adoop鍙互鎴愬姛鐨勮繍琛屽湪20浠f満鍣ㄧ殑灏忓瀷鏈轰笂銆?006骞寸殑鏃跺€欙紝闆呰檸寮€濮嬫寮忓悜Hadoop椤圭洰鏉ユ姇璧勶紝2007骞撮泤铏庡湪2000鍙版満鍣ㄤ笂杩愯Hadoop杩欐牱涓€涓郴缁燂紝2008骞撮泤铏庝娇鐢℉adoop鍦ㄥ叕鍙稿唴閮ㄦ寮忓彇浠f寮忕殑绯荤粺銆傚ぇ瀹舵墍鎰熷叴瓒g殑鏄疕adoop涓変釜澶ф柟闈紝鍙潬鎬э紝鍙墿灞曟€у拰鏄撶敤鎬с€侶adoop鍦ㄨ繎鏈熶箣鍐咃紝鏈変竴浜涙柊鐨勫彂灞曪紝灏辨槸鏈変竴浜涙柊鐨勫瓙椤圭洰锛屾瘮濡傝鍍廐ive鏄娇鐢⊿QL杩欐牱涓€绉嶈瑷€鏉ユ搷浣滄暟鎹殑銆侾ig鏄彟涓€绉嶆暟鎹垎鏋愮殑璇█銆?聽 聽 聽11:43

[Christophe Bisciglia]:鍦ㄤ粖骞村勾鍒濈殑鏃跺€欙紝Cloudera鍏徃鍋氫簡涓€涓猄qoop銆傝繖涓伐鍏锋槸鐢ㄦ潵浠庢暟鎹簱褰撲腑鑾峰彇鏁版嵁锛屾妸瀹冧笅杞藉埌Hadoop涔嬩笂锛岃繖涓伐鍏峰彲浠ユ湁寰堝己鐨勫彲鎵╁睍鎬э紝鐢ㄦ埛鍙互鍦ㄨ繖涓伐鍏蜂箣涓婂姞鍏ユ柊鐨勫姛鑳斤紝鏈€杩戞垜浠紶缁熷瀷涓€浜涘叧绯诲瀷鏁版嵁搴撶殑鍘傚晢寮€濮嬩娇鐢℉adoop锛屽ぇ瀹跺彂鐜帮紝map reduce杩欐牱涓€绉嶆柟寮忕敤鏉ュ仛鏁版嵁鍒嗘瀽闈炲父鐨勫ソ澶勶紝Hadoop鏄痬ap reduce鐨勬爣鍑嗭紝Hadoop琚叏鐞冨緢澶氱殑鍏徃鎵€閲囩敤銆傚湪缇庡浗鍏ㄥ浗鍒板閮芥湁浣跨敤Hadoop鐨勭敤鎴风兢銆侶adoop宸茬粡涓嶅彧鏄粰鍥犵壒缃戝叕鍙镐娇鐢ㄧ殑宸ュ叿锛屽凡缁忔湁瓒婃潵瓒婂鐨勭數淇¤涓氱殑浼佷笟浠ュ強閲戣瀺鍏徃寮€濮嬩娇鐢℉adoop銆?聽 聽 聽11:46

[Christophe Bisciglia]:浣跨敤Hadoop涓昏鐨勬寫鎴樻槸锛屽紑鍙慔adoop闅惧害闈炲父澶э紝閮ㄧ讲Hadoop闅惧害涔熼潪甯稿ぇ锛岀鐞咹adoop鐨勯泦缇や篃闅惧害闈炲父澶э紝鏁欎細鏂扮敤鎴蜂娇鐢℉adoop杞欢闅惧害闈炲父澶с€侰loudera璁や负寮€鍙慔adoop涔嬩笂鐨勫簲鐢ㄥ簲璇ラ潪甯哥畝鍗曘€侰loudera鍋氫簡涓€涓狧adoop鐨勫彂甯冪増鏈紝杩欎釜鐗堟湰浣跨敤鐨勬巿鏉冨崗璁槸Apache2锛岀ǔ瀹氭€ф瘮浼犵粺鐨凥adoop鏈変簡寰堝ぇ鐨勬彁楂樸€備粬浠湁澶氫釜鍙戝竷鐗堟湰锛屾湁鏂扮殑鐗堟湰鏀寔鏂扮殑鍔熻兘锛屼篃鏈夎€佺殑鐗堟湰鏇村姞绋冲畾銆傜涓夋槸鍐欎竴浠借蒋浠跺彲浠ュ湪澶氫釜涓嶅悓骞冲彴涓婅繍琛屻€備粬浠敮鎸佺殑绗竴涓彂甯冪増鏈珻DH1鏄熀浜嶩adoop0.18.3鐗堟湰銆傜浜岀増鏈珻DH2鏈€杩戝垰鍒氬彂甯冿紝绗簩鐗堟湰鍏朵腑鍔犲叆浜嗏€淗 bis鈥濄€傚紑婧愬拰micro鏄粬浠殑閲嶇偣銆傝繖寮犲浘涓婃樉绀虹殑鏄疌loudera鐨勪娇鐢ㄩ噺銆佷笅杞介噺锛岀幇鍦?5%鐨凥adoop鏂扮敤鎴蜂娇鐢–loudera鐨勭増鏈€?聽 聽 聽11:48

[Christophe Bisciglia]:涓嬮潰鏄富瑕佷娇鐢℉adoop鐨勬柊鍏徃銆傚師鏉ユ垜浠湁闆呰檸鍜孎acebook锛岀幇鍦ㄦ垜浠湁VISA锛孉mazon鍏徃锛宔bay銆丯TTKDDI锛屼腑鍥界Щ鍔紝杩欎簺閮芥槸鐢典俊琛屼笟浣跨敤Hadoop鐨勫叕鍙搞€傜數淇¤涓氫娇鐢℉adoop鏉ヤ簡瑙g敤鎴蜂娇鐢ㄤ粬浠數淇$綉缁滅殑鎯呭喌锛屼紭鍖栦粬浠殑缃戠粶閰嶇疆锛岀編鍥界殑渚涚數灞€浣跨敤Hadoop鏉ュ垎鏋愪粬浠數缃戠殑浣跨敤鎯呭喌銆傞噾铻嶅叕鍙稿寘鎷琕ISA鍜孞P鎽╂牴浣跨敤Hadoop鍒嗘瀽浠栦滑鐨勮偂绁ㄤ互鍙婂叾浠栫殑涓€浜涙暟鎹€傞浂鍞晢涔熷紑濮嬩娇鐢℉adoop锛屾垜浠凡缁忕煡閬撳儚浜氶┈閫婂拰ebay杩欐牱鐨勭綉绔欏紑濮嬩娇鐢℉adoop銆?聽 聽 聽11:51
[Christophe Bisciglia]:绗簲銆佸叧浜庣敓鐗╁叕鍙革紝鐢熺墿鍏徃浣跨敤Hadoop鐨勬妧鏈紝鏉ュ浜轰綋鐨凞NA娴嬪簭锛屽垎鏋愪汉浣撶殑DNA鏁版嵁銆備粠杩欎簺鏂扮敤鎴蜂箣闂寸殑鍏遍€氱偣涓紝鎴戜滑鍙戠幇Hadoop鐨勪娇鐢ㄦ槸浠庡紑鍙戣€呭紑濮嬶紝鏄粠宸ョ▼甯堝紑濮嬶紝鍥犱负Hadoop鏈韩鏄厤璐圭殑锛屽伐绋嬪笀鍙互寰堝鏄撴嬁鍒板緢澶氱殑婧愪唬鐮侊紝鍙互璇曠敤锛岀劧鍚庣洿鎺ユ潵瑙e喅鍏徃闂锛岃€屼笉闇€瑕佸叕鍙搁珮灞傜殑鎵瑰噯銆備絾鏄鐞咹adoop鎶€鏈殑浜哄憳鍦ㄤ娇鐢℉adoop杩囩▼褰撲腑閬囧埌寰堝鍥伴毦锛屽洜涓轰粬浠苟涓嶇啛鎮塇adoop杩欐牱鐨勮蒋浠躲€?聽 聽 聽11:52

[Christophe Bisciglia]:鎴戝笇鏈涙妸Hadoop鏋勭瓚鐨勬洿濂界敤锛屼絾鏄櫎浜嗗紑鍙戣€呬互澶栵紝闄や簡宸ョ▼甯堜互澶栵紝鍏朵粬鐨勪竴浜涗汉涔熸兂浣跨敤Hadoop涓婄殑搴旂敤锛屾瘮濡傝鏁版嵁鍒嗘瀽鍛橈紝鎴栬€呭晢涓氬垎鏋愪汉鍛樸€?聽 聽 聽11:53

[Christophe Bisciglia]:瀵逛簬鏂扮敤鎴锋潵璇达紝Hadoop涓昏鐨勬寫鎴樻湁锛岀涓€绋冲畾鎬э紝绋冲畾鎬х殑閲嶈鎬уぇ澶уぇ浜庢柊鍔熻兘鐨勯噸瑕佹€э紝绗簩銆丠adoop涓庣幇鏈夌郴缁熺殑鏁村悎鍜岀粨鍚堥潪甯搁噸瑕侊紝鍥犱负鍙湁杩欐牱锛屽ぇ瀹舵墠鑳芥妸鍘熸湁鐨勭郴缁熷拰鐜版湁鐨勬柊绯荤粺缁撳悎璧锋潵锛屽涓氬姟鎻愪緵鏇村ソ鐨勫府鍔┿€?聽 聽 聽11:54

[Christophe Bisciglia]:Cloudera鍒朵綔Hadoop鐗堟湰鏄笇鏈涜兘澶熼€氳繃杩欐牱鏂逛究鐢ㄦ埛浣跨敤Hadoop锛屽畨瑁匟adoop锛岀淮鎶adoop锛屼粖澶╀笅鍗圕loudera鍙︿竴涓憳宸ヤ細璁茶ВCloudera鎵€鍋氱殑涓€涓蒋浠跺彨Hadoop妗岄潰锛屽彲浠ョ敤鏉ュ緢鏂逛究绠$悊Hadoop锛屼篃缁橦adoop搴旂敤鐨勫紑鍙戜汉鍛樻彁渚涘緢澶х殑鏂逛究銆?聽 聽 聽11:55

[Christophe Bisciglia]:涓嬮潰鏄疕adoop妗岄潰鐨勪竴涓緥瀛愶紝杩欎釜妗岄潰鍜屼紶缁熺殑Linux浠ュ強鍏朵粬涓€浜涙闈㈠緢鐩镐技锛屾墍浠ヤ娇鐢ㄨ捣鏉ラ潪甯稿鏄撲笂鎵嬨€傝繖鍑犱釜绐楀彛鏄剧ず鐨勬槸鍦℉adoop涓婅繍琛岀殑浠诲姟锛屾瘡涓换鍔$殑璇︾粏淇℃伅浠ュ強杩欎簺浠诲姟鐩墠鎵ц鐨勭姸鎬併€傚湪杩欎釜鎶ュ憡褰撲腑锛屾垜浠笉浼氫粩缁嗕粙缁岺adoop妗岄潰鐨勪笢瑗匡紝鍥犱负涓嬪崍鏈夋洿璇︾粏鐨勪粙缁嶃€備絾鏄垜鎯虫彁鍒扮殑鏄紝Hadoop妗岄潰杩欎釜杞欢鏈韩鏄紑鏀剧殑锛屼粬鏈夊緢澶氬簲鐢ㄧ▼搴忓紑鍙戠殑鎺ュ彛锛屽ぇ瀹跺彲浠ュ湪Hadoop妗岄潰涔嬩笂缁х画寮€鍙戙€傚垰鎵嶉偅椤垫樉绀虹殑鏄疕adoop妗岄潰鐢ㄦ潵鏄剧ずHadoop鏂囦欢绯荤粺鐨勭晫闈紝杩欎竴椤垫樉绀虹殑鏄疕adoop妗岄潰鐢ㄦ潵璋冭瘯鍜岀紪鍐橦adoop浠g爜鐨勭晫闈€侶adoop妗岄潰鍜寃indows鐨勮祫婧愮鐞嗗櫒闈炲父鐩镐技锛岀敤鎴峰彲浠ラ€氳繃Hadoop妗岄潰涓婁紶鍜屼笅杞芥枃浠讹紝鐢ㄦ埛鍙互浣跨敤杩欎釜杞欢鐩存帴鏌ョ湅鏂囦欢鐨勫唴瀹癸紝杩欎竴椤垫樉绀虹殑鏄疕adoop妗岄潰鐢ㄦ潵璋冭瘯鍜岀紪鍐橦adoop浠g爜鐨勭晫闈€?聽 聽 聽11:57

[Christophe Bisciglia]:Hadoop妗岄潰鍜寃indows鐨勮祫婧愮鐞嗗櫒闈炲父鐩镐技锛岀敤鎴峰彲浠ラ€氳繃Hadoop妗岄潰涓婁紶鍜屼笅杞芥枃浠讹紝鐢ㄦ埛鍙互浣跨敤杩欎釜杞欢鐩存帴鏌ョ湅鏂囦欢鐨勫唴瀹癸紝杩欎竴椤垫樉绀虹殑鏄綋鍓嶇殑map reduce鐨勭晫闈紝鑰岃繖涓€椤垫樉绀虹殑鏄娇鐢℉adoop妗岄潰鏌ョ湅map reduce鐨勭姸鍐碉紝鎴戜滑鍙互鐐瑰嚮涓婇潰鐨勯摼鎺ヨ幏寰楁洿鍔犺缁嗙殑鎯呭喌锛岃繖椤垫樉绀虹殑鏄浣曚娇鐢℉adoop妗岄潰鏉ヨ皟璇曠▼搴忋€?聽 聽 聽11:59

[Christophe Bisciglia]:Hadoop妗岄潰褰撲腑杩樻湁涓€涓姛鑳斤紝鍙互鐩戞祴闆嗙兢鐨勫仴搴风姸鎬侊紝鎴戜滑浣跨敤鍥惧舰鏉ユ樉绀洪泦缇ょ殑鍋ュ悍鎯呭喌锛屽浘涓瘡涓€涓豢鐐硅〃绀轰竴涓仴搴风殑鏈哄櫒锛屾瘡涓€涓孩鐐硅〃绀轰竴涓笉鍋ュ悍鐨勬満鍣ㄣ€侶adoop妗岄潰鐩戞祴鏈哄櫒鐨勫姛鑳介潪甯搁潪甯稿紑鏀撅紝鏈夌户缁紑鍙戠殑鎺ュ彛锛岃鐢ㄦ埛鍔犲叆鏂扮殑鍔熻兘銆傜幇鍦ㄧ晫闈㈡樉绀虹殑鏄换鍔¤璁″櫒锛屼换鍔¤璁″櫒鍏佽鐢ㄦ埛璁捐涓夌涓嶅悓鐨勪换鍔★紝map reduce銆丳ig銆丠ive锛屾垜浠彲浠ユ兂璞★紝浣跨敤杩欎釜鐣岄潰鍙互寰堝鏄撶殑璁捐涓€涓暟鎹寲鎺樼殑绠楁硶锛屽杩欎簺鎶€鏈笉鏄緢鐔熸倝鐨勭敤鎴凤紝鍙互鐩存帴浣跨敤杩欎釜鐣岄潰鏉ヨ璁′粬浠墍闇€瑕佺殑鏁版嵁鍒嗘瀽鐨勪换鍔★紝鐒跺悗鍙杞昏交鐐瑰嚮涓€涓嬶紝灏卞彲浠ヨ杩欎釜浠诲姟鍦℉adoop鐨勯泦缇や笂杩愯銆?聽 聽 聽12:0

[Christophe Bisciglia]:杩欎竴椤垫槸鍏充簬Hadoop妗岄潰鐨勪竴浜涚粏鑺傦紝Hadoop妗岄潰鏄彧鍦–loudera鍙戣鐗堟湰涓婅兘鐢紝Hadoop妗岄潰鍙互鍦ㄤ綘鑷繁鏁版嵁涓績鐨勯泦缇や笂杩愯锛屼篃鍙互鍦ㄤ簹椹€婄殑闆嗙兢涓婅繘琛屻€侶adoop妗岄潰鎵€浣跨敤鐨勬闈㈢鐞嗗櫒鏄紑婧愮殑锛孒adoop妗岄潰骞朵笉鎯虫浛浠e懡浠よ鐨勫伐鍏凤紝鑰屾槸涓€涓潪甯稿ソ鐨勮ˉ鍏呫€傜啛缁冪殑Hadoop浣跨敤鑰呭皢缁х画浣跨敤鍛戒护琛岋紝浣嗘槸瀵逛簬鏂扮敤鎴锋垨鑰呮槸闈炴妧鏈€х殑鐢ㄦ埛Hadoop妗岄潰浼氭槸涓€涓緢濂界殑閫夋嫨銆?聽 聽 聽12:2

[Christophe Bisciglia]:鎴戞渶鏈€鎰熷埌鍏村鐨勬槸锛孋loudera鐨凥adoop妗岄潰鐨凙PI锛孒adoop妗岄潰鐨勬灦鏋勬鍦ㄩ€愭笎鐨勭ǔ瀹氫笅鏉ワ紝鎴戜滑姝e湪涓庝竴浜涘悎浣滀紮浼翠竴璧峰紑鍙戞柊鐨凥adoop涓婄殑搴旂敤锛屾垜浠笇鏈涜兘澶熶娇鐢ㄤ竴涓崟涓€鐨勬帴鍙f潵姒傛嫭杩欎釜绀惧尯褰撲腑鐨勫垱鏂般€侫PI灏嗕細鍦ㄥ皢鏉ョ殑鏁版湀涔嬪唴瀹屽叏寮€婧愶紝濡傛灉浣犱滑鎯充簡瑙f洿澶氱殑淇℃伅锛屽彲浠ョ粰浠ヤ笂鐨凟mail鍦板潃鍙戜俊锛屾垜浼氬強鏃剁殑鍛婅瘔浣犳渶鏂扮殑杩涘睍銆?聽 聽 聽12:3

[Christophe Bisciglia]:涓嬮潰涓€椤垫樉绀虹殑鏄嚑涓摼鎺ワ紝濡傛灉浣犳兂鍏嶈垂鑾峰緱C鐨凥adoop鐗堟湰鍙渶瑕佽蛋鍒扮涓€涓摼鎺ャ€傛垜浠叕鍙告彁渚涘厤璐圭殑鍦ㄧ嚎鐨凥adoop鍩硅锛岃繖鏄〉闈笂绗笁涓摼鎺ャ€傜敤鎴峰彲浠ュ湪绾胯鐪婬adoop鍩硅鏁欑▼锛屽苟涓斿彲浠ュ湪鍦ㄧ嚎鐨勪娇鐢℉adoop鏉ヨ繘琛岃仈绯伙紝绗洓涓摼鎺ユ槸Cludera鐨勯摼鎺ワ紝闈炲父鎰熻阿涓庝細鐨勫悇浣嶅槈瀹惧拰缁勭粐鑰呫€?聽 聽 聽12:4
[涓绘寔浜?鏌ョぜ]:涓婂崍鐨勪細璁埌姝ょ粨鏉熴€傝阿璋紒 聽 聽 聽12:6

George Zhang

unread,
Nov 18, 2009, 1:59:03 AM11/18/09
to tt...@googlegroups.com
[黄晓庆]:我想特别谈一下数据挖掘这个应用,我们开发了一些基于Hadoop的算法,其中有一些是经典的数据挖掘算法,所以我们已经将他们使用在很多实际生产运行中。我们试图挖掘用户关系,通过用户的日志,和传统系统相比,这个系统使用了1/6的成本实现了6倍的性能。      11:5

高级分析在 IT统计学 这两个领域必定是要融合的
但是现在IT领域做得这些分布式的尝试,在统计领域并不能很好的跟上,因为目前很多统计算法本身就是不可分布,或者说,分布不能明显加快效率的。

比如聚类的Kmeans算法可实现高效的分布,而hclust层次聚类算法就无法实现
而考虑到Kmeans算法的致命缺陷,这点分布效率并不能带来更好的聚类结果,所以等于白费

对于黄晓庆他们做得尝试我抱极大的好奇:)

[Christophe Bisciglia]:下面是主要使用Hadoop的新公司。原来我们有雅虎和Facebook,现在我们有VISA,Amazon公司,ebay、NTTKDDI,中国移动,这些都是电信行业使用Hadoop的公司。电信行业使用Hadoop来了解用户使用他们电信网络的情况,优化他们的网络配置,美国的供电局使用Hadoop来分析他们电网的使用情况。金融公司包括VISA和JP摩根使用Hadoop分析他们的股票以及其他的一些数据。零售商也开始使用Hadoop,我们已经知道像亚马逊和ebay这样的网站开始使用Hadoop。      11:51
[Christophe Bisciglia]:第五、关于生物公司,生物公司使用Hadoop的技术,来对人体的DNA测序,分析人体的DNA数据。从这些新用户之间的共通点中,我们发现Hadoop的使用是从开发者开始,是从工程师开始,因为Hadoop本身是免费的,工程师可以很容易拿到很多的源代码,可以试用,然后直接来解决公司问题,而不需要公司高层的批准。但是管理Hadoop技术的人员在使用Hadoop过程当中遇到很多困难,因为他们并不熟悉Hadoop这样的软件。      11:52

这个应用可真是广呀,估计最早使用这个技术的是美国航天局?不是很早以前有一个一起寻找外星人项目吗,说是你的电脑装个软件,就能在机器空闲的时候协助航天局的系统计算星系里可能存在生物的星球~

--
Best Regard
George Zhang

www.simplemining.com

Qi Cici

unread,
Nov 18, 2009, 2:43:20 AM11/18/09
to tt...@googlegroups.com
[Christophe Bisciglia]:我希望把Hadoop构筑的更好用,但是除了开发者以外,除了工程师以外,其他的一些人也想使用Hadoop上的应用,比如说数据分析员,或者商业分析人员。      11:53
 

任务设计器允许用户设计三种不同的任务,map reducePigHive,我们可以想象,使用这个界面可以很容易的设计一个数据挖掘的算法,对这些技术不是很熟悉的用户,可以直接使用这个界面来设计他们所需要的数据分析的任务,然后只要轻轻点击一下,就可以让这个任务在Hadoop的集群上运行。      12:0

 
 
我比较感兴趣的两句话。

2009/11/18 George Zhang <birdzha...@gmail.com>

python

unread,
Nov 18, 2009, 2:49:20 AM11/18/09
to tt...@googlegroups.com

你感兴趣的东西 yahoo 在这方面做的非常好。。你有资源可以深入一下。

 

 

Python

MSN: shir...@163.com

 

发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 Qi Cici
发送时间: 20091118 15:43
收件人: tt...@googlegroups.com
主题: Re: 答复: Hadoop中国2009云计算大会

<br

loafer

unread,
Nov 25, 2009, 8:35:04 PM11/25/09
to ttnn BI 观点
很棒的技术,可惜技术门槛比较高,只有互联网行业这些精英们玩的转啊,传统行业还是依赖一些成熟的关系数据库在做这些东西。

有机会真想去玩玩。

On 11月18日, 上午11时54分, Q <happys...@gmail.com> wrote:

raullew

unread,
Nov 25, 2009, 10:41:38 PM11/25/09
to ttnn BI 观点
一种暴力计算的工具,用的是20年前的技术,只能算算求和,不知道有什么好的。。。

Feuille

unread,
Nov 27, 2009, 9:34:23 PM11/27/09
to tt...@googlegroups.com
其实做信息检索还是有些用处,虽然不是很稳定...

2009/11/26 raullew <rau...@hotmail.com>

Feuille

unread,
Nov 27, 2009, 9:36:08 PM11/27/09
to tt...@googlegroups.com
不过想想BI这东西主要解决的问题还就是求和...至少我们这边就是这样...底层的数据支撑我觉得这种简单的功能就已经很好了...

2009/11/28 Feuille <nugu...@gmail.com>

raullew

unread,
Nov 27, 2009, 9:44:21 PM11/27/09
to ttnn BI 观点
如果要update一条记录,很暴力啊。。。

On Nov 27, 6:36 pm, Feuille <nugun...@gmail.com> wrote:
> 不过想想BI这东西主要解决的问题还就是求和...至少我们这边就是这样...底层的数据支撑我觉得这种简单的功能就已经很好了...
>
> 2009/11/28 Feuille <nugun...@gmail.com>
>
>
>
> > 其实做信息检索还是有些用处,虽然不是很稳定...
>
> > 2009/11/26 raullew <raul...@hotmail.com>


>
> > 一种暴力计算的工具,用的是20年前的技术,只能算算求和,不知道有什么好的。。。
>
> >> On 11月26日, 上午9时35分, loafer <13801396...@139.com> wrote:
> >> > 很棒的技术,可惜技术门槛比较高,只有互联网行业这些精英们玩的转啊,传统行业还是依赖一些成熟的关系数据库在做这些东西。
>
> >> > 有机会真想去玩玩。
>

> >> > On 11月18日, 上午11时54分, Q <happys...@gmail.com> wrote:- Hide quoted text -
>
> - Show quoted text -

YY H

unread,
Nov 27, 2009, 9:46:22 PM11/27/09
to tt...@googlegroups.com
数据仓库里面也很少用update吧

2009/11/28 raullew <rau...@hotmail.com>:

raullew

unread,
Nov 28, 2009, 12:30:52 AM11/28/09
to ttnn BI 观点
做任何事情都很暴力,select几条记录要读全表,delete几条记录要写全表

On Nov 27, 6:46 pm, YY H <gxgl...@gmail.com> wrote:
> 数据仓库里面也很少用update吧
>
> 2009/11/28 raullew <raul...@hotmail.com>:

> >> - Show quoted text -- Hide quoted text -

Reply all
Reply to author
Forward
0 new messages