北京。五道口。
星期六。己丑年四月十五。气温适宜外出活动。
@pongba 前不久离开了南大,受邀微软来到北京。继上月他与李笑来会师(江湖曾流传一句话:自从读了李笑来, 我就不写人生感悟了; 自从读了刘
未鹏, 我就不写学习方法和思维方法)后,他又召集了TopLanguage小组聚会。
本次与会技术人7个(按出场顺序排列):
@pongba Blog:http://mindhacks.cn 微软亚洲研究院
王乐珩 Blog:http://joyfire.spaces.live.com 中科院计算所
@googollee Blog:http://googollee.blog.163.com/ Nthcode
@zhengyun Blog:http://blog.csdn.net/zhengyun_ustc/ 玩聚网
@tinyfool Blog: http://www.tinydust.net/dev 银杏泰克
张沈鹏 Blog:http://zsp.javaeye.com/ 豆瓣
孙勇 http://blogs.sun.com/yongsun/ Sun
旁的不叙。咱们表一表与会的闲谈话题。众所周知,人(即节点)一多,每个人的交互(即连接)也多,很难整理出一个可阅读的话题脉络。以下文字基本上来自
每个人的口头表达,我尽量加工组合,先优选两个话题抛砖引玉。
1、人工智能和进化
可能是 TL 上 Self-replicating_machine 话题的线下延续。
当来自于生物信息课题组的 joyfire 介绍研究方向是“基因组信息结构的复杂性及遗传语言的根本规律”时,大家便开始边跑题边激荡脑力。
1.1.DNA就是字符串
首先感慨DNA之设计精良,假如上帝是一个程序员的话,视每个DNA为一个四个元素的字符串数组,用区区几十MB的代码量,便控制了人的一切生长和行
为,堪称伟大的程序员。
附注:单链DNA可以看作是由符合A、G、C、T组成的字符串。我们简化为就是字符串搜索和匹配,那么可以近似认为基因测序或测定就像搜索引擎一样是对
字符串的操作。相应的应用就是SARS基因序列的测定,以及测定三聚氰胺的质谱仪(这又延伸出另外一个话题:破坏性创新,按下不表)。
围绕着如此精良的编程功底是如何形成的,于是话题过度到了“进化”。
1.2.模拟进化
大家执著于讨论:
存不存在可能,模拟一个算法,构建一个环境,把一段代表生命(仅仅是代表草履虫一样的早期生命体)的代码放进去,通过模拟基因变异、适者生存的达尔文法
则,通过高速并发计算,最终得到进化到一定程度的高级生命体?
zsp 认为算法有可能跑,但由于模拟的维度是人设计的,必定远远少于真实的世界,由于量变才能引起质变,过少的变异维度和环境维度难以,所以核心问题
还在于“特征”如何抽取。
一般来说,人类具有抽象能力,能够通过各种方法论找到一个事物或事务的“特征”,并把“特征”告诉机器,机器计算能力强,执行即可。在这个层面上,自我
复制的机器人实际上并不难造,毕竟“特征”都是可以固化的。
但如果机器无法具有抽象能力,无法自动找到让进化延续下去的外部或内部“特征”,那么“进化”又能到什么阶段呢?
1.3.进化结果的评价
当然,这里的“进化”终极结果并不是出现像人类这样的智能生物,只要是符合逻辑的、可延续下去的生物即可。因为你在某一个时间点并不能用好还是坏来评价
某一个演进中的生命体,比如恐龙,某个时间段你可能认为它们是最优秀的生命体,但不久后它们全部被随机产生的外部环境变化毁灭了,那么它是好的还是坏
的“进化”?比如人类,现在看我们是最优秀的智能生物,但假如不久后我们通过战争自我毁灭,或者被地外生物毁灭,那么我们这个演进路线是对还是错?
所以,这个程序主要考察生命体是否能不断进化,最终产生智能。
当然,大家会谈到《孢子》游戏。它的进化逻辑有点简单,但仍然是一个非常优秀的、融合了即时战略和进化的游戏。
1.4.大脑:连接、节点、地址
@tinyfool 提到,以前人们都认为大脑是按功能区划分的,彼此不可替代。但后来通过试验发现,大脑的功能区可以转移,可以“重建”。用大白话
说,就是摧毁了左脑某些组织后,本以为相应所负载的功能(如运动、语言功能)会丧失,但随着时间推移,大脑能迅速在右脑区域重新建造这些功能。
@tinyfool 提到,网络最开始也是一个看上去很呆滞的方案,最开始只是每一个主机提供静态网页,后来出现的HTTP协议也是看上去不美,但神奇
的事情发生了。由于只定了三个元素:
节点
连接
地址
最开始也平淡无奇,但随着进化,每个节点自己慢慢地拥有了自己的智能,如动态网页等等,通过地址找到节点,节点互相之间建立了连接,节点有智能,于是互
联网便无所不能,本身就是一个拥有海量信息的、具有足够智能的生物体。
这和大脑的机制,似乎有一些有趣的共性。
1.5.先验知识或本能
大脑的功能重建,以及程序自进化算法,joyfire 都认为,存在一个大问题,就是“先验知识”。
人或动物拥有很多先验知识,这些知识是在一代一代进化中固化在基因中的。比如烫了就缩手,比如本能不喜欢苦的味道。
程序如何模拟这些东西呢?
或者说,大脑重建功能区时,如何恢复这些“先验知识”,假如这些东西是存储在某一个固定区域的话。
一方认为,先验知识可以模拟,比如存在多个变异,每个变异者的基因中就携带了该变异,如果进化过程中其他变异者毁灭,那么生存下来的变异者就自然携带这
个变异传递下去,这就解释了“先验知识”从哪里来的问题。当然,这只是一个理想状态的描述。因为它没有涉及哪些变异会固化到基因中。比如一个天生少了一
条腿的小狗,在繁衍时,也不会把这个变异传递下去,也就是某些变异是不会遗传的,那么谁来做出判断要不要遗传?
对于机器来说,“先验知识”有点儿像“特征”一样难以琢磨,原因如前所述,机器很难判断哪些是应该固化的,用“进化论”还是解释不了这个问题。
这样,我们又绕回到“特征”抽取问题。
2、破坏性创新
前述 joyfire 的测定三聚氰胺的质谱仪,延伸出另外一个话题:大学教育、破坏性创新和国内环境。
大家应该经常看到这样一种现象,我们的研究机构或者公司,本来凭着中国人的聪明才智,在某一个研究领域几乎已经逼近或超过国际一流水平,此时大家心中暗
喜,但随着国外某一个实验组或小公司的一个破坏性创新,导致以前的科研成果又被摧毁被甩出老远,人家继续领跑,当然是换了一帮人领的。
问题就在这里。
照理说,破坏性创新(后简称“破创”)基本上是此起彼伏,在全球范围内。
但,事实上中国大陆很难出现破坏性创新。
举个最简单的例子,当我们的门户模式称雄时,SNS横空出世。当我们的名人博客每天吸引了数十亿点击时,Twitter横空出世。
joyfire 说,在生物信息领域,当我们迅速逼近、赶超他们时,突然他们出现跨越式成长,“跳”了起来,而我们不会“跳”。
一方归结为,中国不是不投钱,但投钱投的区域总是很窄,无法产生链条联动效应,总是受困于上一步或下一步。
假设说,国家重点发展的基因测序需要几微米的试管,我们生产不了,只能买国外的,那么假定这是精密仪器问题。
okay,精密仪器领域,国内也有地方大力鼓励。
但同样的工艺和生产线,就是无法达到国外的水平,比如前面说的试管,要求内径不能忽粗忽细,误差不得大于某某数值,但国内生产就是无法达标。于是,没有
下家买单,下家还得去国外订购,订购不到,下家的科研任务就无法做。于是,精密仪器厂家纷纷倒闭。于是,恶性循环。这有点像我们的大飞机这么多年的历
史。
参考资源:
0424 笑来、pongba会师:
1:素描
“
余晟 刘未鹏
霍炬 李笑来
西乔
我 胖兔子粥粥
”
0509 TL聚会:
1:TL聚会,遭遇若干大牛:
“神侃内容:从互联网广告的商业模式开始,到电子商务的信誉体系和物流体系;到语义网络技术、信源挖掘推荐和评价;到人工智能、基因进化和大脑神经机
制;到豆瓣应完善的若干features需求;到北京美食和若干"驻京办"位置;到房价和经济危机;到国有垄断行业和IT创业;最后到各自工作中正在面
对的算法和工程难题。”
2:IP、IC、IQ卡,通通告诉我密码:
“这就又回到昨天TL聚会讨论的内容,智能的本质,到底是“超大存储+超快检索”(换句话说,足够多的先验知识),还是另一种计算模型呢?”
Jeffrey Zhao
Blog: http://jeffreyzhao.cnblogs.com
Twitter: http://twitter.com/jeffz_cn
--------------------------------------------------
From: "Yun Zheng" <zhen...@gmail.com>
Sent: Monday, May 11, 2009 8:39 PM
To: "TopLanguage" <pon...@googlegroups.com>
Subject: [TL] 0509·刘未鹏的TopLanguage聚会[一]
2009/5/11 wang feng <wanng...@gmail.com>:
记要的非常非常专业和明确哪,明显记要者对于所有内容是明白的,
不简单!
有录音不?
--
http://zoomquiet.org
'''过程改进乃是催生可促生靠谱的人的组织!'''
Time is unimportant, only life important!
On May 11, 10:22 pm, "Zoom.Quiet" <zoom.qu...@gmail.com> wrote:
> 2009/5/11 Yun Zheng <zheng...@gmail.com>:
On May 11, 8:39 pm, Yun Zheng <zheng...@gmail.com> wrote:
> 郑昀@玩聚SR
>
> 北京。五道口。
>
> 星期六。己丑年四月十五。气温适宜外出活动。
>
> @pongba 前不久离开了南大,受邀微软来到北京。继上月他与李笑来会师(江湖曾流传一句话:自从读了李笑来, 我就不写人生感悟了; 自从读了刘
> 未鹏, 我就不写学习方法和思维方法)后,他又召集了TopLanguage小组聚会。
>
> 本次与会技术人7个(按出场顺序排列):
>
> @pongba Blog:http://mindhacks.cn微软亚洲研究院
> 王乐珩 Blog:http://joyfire.spaces.live.com中科院计算所
> @googollee Blog:http://googollee.blog.163.com/Nthcode
> @zhengyun Blog:http://blog.csdn.net/zhengyun_ustc/玩聚网
> @tinyfool Blog:http://www.tinydust.net/dev银杏泰克
> 张沈鹏 Blog:http://zsp.javaeye.com/豆瓣
> 孙勇http://blogs.sun.com/yongsun/Sun
>
> On May 11, 10:22 pm, "Zoom.Quiet" <zoom.qu...@gmail.com> wrote:
>> 2009/5/11 Yun Zheng <zheng...@gmail.com>:
>>
>> > 看带格式的全文,请点击:
>> >http://blog.csdn.net/zhengyun_ustc/archive/2009/05/11/4168931.aspx
>>
>> 记要的非常非常专业和明确哪,明显记要者对于所有内容是明白的,
>> 不简单!
>> 有录音不?
>>
--
http://zoomquiet.org
'''过程改进乃是催生可促生靠谱的人的组织!'''
Free as in Freedom! 哲思自由软件社区:http://zeuux.org
Avida is an artificial life software platform to study the evolutionary biology of self-replicating and evolving computer programs (digital organisms). Avida is under active development by Charles Ofria's Digital Evolution Lab at Michigan State University and was originally designed by Ofria, Chris Adami and C. Titus Brown at Caltech in 1993. The software was inspired by the Tierra system.遗传算法?
当然,再往后,可以记录脑的活动流。
我今天想到,在一次聚会甚至大型的活动中,如果计算机系统能记录下与会者的
所有脑活动,所思所看所听所说,并通过很好的方式展现出来,那该是一幅什么
场景?
推而广之,如果以后地球整个都部署了无线传感器网,能够记录历史的各个细
节,那又是一幅什么场景啊?
我今天想到,在一次聚会甚至大型的活动中,如果计算机系统能记录下与会者的
所有脑活动,所思所看所听所说,并通过很好的方式展现出来,那该是一幅什么
场景?
推而广之,如果以后地球整个都部署了无线传感器网,能够记录历史的各个细
节,那又是一幅什么场景啊?”
第一反应是“老大哥在看着你”,大概是特别和谐的场景吧XDDD
真是一个有意思的聚会 这次回国一定要拉着TL上的各位再搞一次, 哼哼!
DNA 的说法可能有误 人的DNA好像有28亿对碱基, 几百万个基因
恩,pongba没叫你么?pongba同志的责任,不怪我,呵呵。
当时说的时候,大概是这个意思,人体是如此复杂高效的一个复杂系统,然而全部的设计蓝图,或者源代码,其实就全部存储在很少的DNA字符串里。(而且
DNA里面其实只有5%被翻译,其余的可能都是进化痕迹,都可以看作被注释掉的历史代码)上帝作为程序员,效率真的很高。
再往前,说这句话的意思,是为了说明,我们现有的软硬件结构,离自然界的上限还很远呢。无论是硬件存储和检索能力,还是软件的编码效率。
这句话之后,大家议论说,DNA是一种动态语言,可以反过来被它编译出的exe——蛋白质影响。其中的保守部分,比如每个人都只有一个鼻子,两个鼻孔,
容错性很高,不会随便就变异掉。但是另外一方面,代码又有很强的灵活性:每个人又有大量的不同点,以利于多样性和进化。
其实RNA的特性更有意思, 更灵活. 有人对 RNA 结构预测/反预测,
RNA 信息表达感兴趣吗, 可以线下聊聊, 呵呵.
DNA 的说法可能有误 人的DNA好像有28亿对碱基, 几百万个基因
2009/5/11 Xi <iamzh...@gmail.com>:
--
wing
wing9...@gmail.com
Hope is a good thing, maybe the best of things.
2009/5/11 图灵刘江 <liuj....@gmail.com>:
人们将没有任何隐私, 社会重新回到亚当夏娃的时代
后来,
所有议会长老一致反对这项计划, 主张停止监视人类思维活动,
但是地球科学院的研究员们和地球中情局显然并不会让它发生.
随着民间反对声音的壮大,
最后终于达成了共识:
只监视大脑负责逻辑部分的活动.
这被大部分人所接受,
虽然仍有不少的人反对任何形式的监视.
后来人们发现, 大脑监视产生的数据量过于庞大, 且呈指数级增长,
导致所有的存储设备被完全塞满,
而且数据维护开销也极大,
最后地球数据中心"Brain"陷入瘫痪.
这一消息传开后, 良好的社会治安开始出现强烈反弹.
社会开始混乱.
地球科学院开始加紧研发人工大脑,
以处理和存储巨量的数据.
但是如何让人工大脑保持持久的记忆一直是个最大的难题.
后来人们发现古老的RAID技术或许是答案之一.
(后来的事情就不知道了, 知道的同学继续)
2009/5/12 DaiZW <shinys...@gmail.com>:
1.1.DNA就是字符串
首先感慨DNA之设计精良,假如上帝是一个程序员的话,视每个DNA为一个四个元素的字符串数组,用区区几十MB的代码量,便控制了人的一切生长和行
为,堪称伟大的程序员。
附注:单链DNA可以看作是由符合A、G、C、T组成的字符串。我们简化为就是字符串搜索和匹配,那么可以近似认为基因测序或测定就像搜索引擎一样是对
字符串的操作。相应的应用就是SARS基因序列的测定,以及测定三聚氰胺的质谱仪(这又延伸出另外一个话题:破坏性创新,按下不表)。
围绕着如此精良的编程功底是如何形成的,于是话题过度到了“进化”。
1.2.模拟进化
大家执著于讨论:
存不存在可能,模拟一个算法,构建一个环境,把一段代表生命(仅仅是代表草履虫一样的早期生命体)的代码放进去,通过模拟基因变异、适者生存的达尔文法
则,通过高速并发计算,最终得到进化到一定程度的高级生命体?
zsp 认为算法有可能跑,但由于模拟的维度是人设计的,必定远远少于真实的世界,由于量变才能引起质变,过少的变异维度和环境维度难以,所以核心问题
还在于“特征”如何抽取。
一般来说,人类具有抽象能力,能够通过各种方法论找到一个事物或事务的“特征”,并把“特征”告诉机器,机器计算能力强,执行即可。在这个层面上,自我
复制的机器人实际上并不难造,毕竟“特征”都是可以固化的。
但如果机器无法具有抽象能力,无法自动找到让进化延续下去的外部或内部“特征”,那么“进化”又能到什么阶段呢?
1.4.大脑:连接、节点、地址
@tinyfool 提到,以前人们都认为大脑是按功能区划分的,彼此不可替代。但后来通过试验发现,大脑的功能区可以转移,可以“重建”。用大白话
说,就是摧毁了左脑某些组织后,本以为相应所负载的功能(如运动、语言功能)会丧失,但随着时间推移,大脑能迅速在右脑区域重新建造这些功能。
@tinyfool 提到,网络最开始也是一个看上去很呆滞的方案,最开始只是每一个主机提供静态网页,后来出现的HTTP协议也是看上去不美,但神奇
的事情发生了。由于只定了三个元素:
节点
连接
地址
最开始也平淡无奇,但随着进化,每个节点自己慢慢地拥有了自己的智能,如动态网页等等,通过地址找到节点,节点互相之间建立了连接,节点有智能,于是互
联网便无所不能,本身就是一个拥有海量信息的、具有足够智能的生物体。
这和大脑的机制,似乎有一些有趣的共性。
1.5.先验知识或本能
大脑的功能重建,以及程序自进化算法,joyfire 都认为,存在一个大问题,就是“先验知识”。
人或动物拥有很多先验知识,这些知识是在一代一代进化中固化在基因中的。比如烫了就缩手,比如本能不喜欢苦的味道。
程序如何模拟这些东西呢?
或者说,大脑重建功能区时,如何恢复这些“先验知识”,假如这些东西是存储在某一个固定区域的话。
2、破坏性创新
前述 joyfire 的测定三聚氰胺的质谱仪,延伸出另外一个话题:大学教育、破坏性创新和国内环境。
大家应该经常看到这样一种现象,我们的研究机构或者公司,本来凭着中国人的聪明才智,在某一个研究领域几乎已经逼近或超过国际一流水平,此时大家心中暗
喜,但随着国外某一个实验组或小公司的一个破坏性创新,导致以前的科研成果又被摧毁被甩出老远,人家继续领跑,当然是换了一帮人领的。
问题就在这里。
照理说,破坏性创新(后简称“破创”)基本上是此起彼伏,在全球范围内。
但,事实上中国大陆很难出现破坏性创新。
举个最简单的例子,当我们的门户模式称雄时,SNS横空出世。当我们的名人博客每天吸引了数十亿点击时,Twitter横空出世。
joyfire 说,在生物信息领域,当我们迅速逼近、赶超他们时,突然他们出现跨越式成长,“跳”了起来,而我们不会“跳”。
一方归结为,中国不是不投钱,但投钱投的区域总是很窄,无法产生链条联动效应,总是受困于上一步或下一步。
假设说,国家重点发展的基因测序需要几微米的试管,我们生产不了,只能买国外的,那么假定这是精密仪器问题。
okay,精密仪器领域,国内也有地方大力鼓励。
但同样的工艺和生产线,就是无法达到国外的水平,比如前面说的试管,要求内径不能忽粗忽细,误差不得大于某某数值,但国内生产就是无法达标。于是,没有
下家买单,下家还得去国外订购,订购不到,下家的科研任务就无法做。于是,精密仪器厂家纷纷倒闭。于是,恶性循环。这有点像我们的大飞机这么多年的历
史。
On May 12, 9:40 am, 莫华枫 <longshank...@gmail.com> wrote:
1.大脑各个区域自动修复和重联功能的确很强,但也是有限制的。补偿机制不难理解。
2.创新不是拍脑袋等苹果落下来,还是需要一些踏实的基础。我们的问题,也许在于,环境导致无法真正"长期潜心研究"
On May 12, 9:40 am, 莫华枫 <longshank...@gmail.com> wrote:
> 2009/5/11 Yun Zheng <zheng...@gmail.com>
> longshank...@gmail.comhttp://blog.csdn.net/longshanks/
On May 11, 11:45 pm, pongba <pon...@gmail.com> wrote:
> 恩恩,我的责任。其实这次主要是我个人借TL之名认识一下未谋面的但仰慕的几位朋友,不能算是TL官方聚会啦:D
> TL官方聚会请期待2周年(还有一个多月) 嘿嘿:D
>
> 2009/5/11 Tiny fool <tinyf...@gmail.com>