[原创]梦断Michael----浅析全新基于价值的搜索引擎架构。

3 views
Skip to first unread message

刘子嘉

unread,
Jul 4, 2009, 10:02:26 AM7/4/09
to sll2...@googlegroups.com, sociallearnlab
事情是这样的。
一天晚上睡觉正酣,突然头皮一紧,如醍醐灌顶般猛然惊醒,仿佛有人托梦于我,让那个时刻的我意识到了,互联网搜索引擎原来可以以另一种形式展现,Google所追求的差异化搜索,个性化搜索,以及个人知识、价值的汇集与整理,似乎可以通过另一种精妙的方式实现。
我难掩内心的狂喜,当晚就我把想法详细记录了下来,窃以为很有一些可行性。
在一次与庄老师的对话中,庄老师鼓励我将我的想法分享出来,于是就有了这样一封邮件,如果没有了庄老师的鼓励,可能我未必有信心分享这个奇思妙想。我设想了没有人在意这个想法,或是所有人都不以为然的情况,这很尴尬。
现在我把它完整的描述出来,无论有没有人关注。这里就开始:
暂时略去它的细节,从结果上来看,这个可能出现的搜索引擎将在以下几点里产生革命性的意义。简述如下:
1.搜索的返回结果排序依据将基于于资源的真正价值,而非传统搜索引擎如Google的纯计算机技术性的Pagerank算法。显而易见,所谓返回结果的“真正价值”,来自于客观事物在人类意识中的反映,即,客观事物的价值由人们的主观意识赋予。因此,排序结果将抛弃一切计算机技术算法,而基于最伟大的智慧机器——人。
2.作为互联网的使用者,将不再简单盲目地在网络上作为信息产出者,这一全新网络形态将使得,用户在网络上的一切非原创性行为(如分享)及原创性行为被纳入搜索引擎的价值体系而被排序,用户会将获得因排序靠前而产生的价值实现感,进而被鼓励产生更多基于个人的价值信息。这是鼓励用户进行网络行为的有效方式。与此相对的是目前互联网中存在的所有信息发布系统。
3.精妙的社交功能。用户有两大行为:搜索与被搜索。关键字是联系两者的纽带,其中,被搜索者为资源提供关键字,而搜索者搜索关键字。一方面是某用户提供资源,并根据自己的认知指出资源的重点,另一方面是另一些用户的或有意,或无心的搜索之举——这很奇妙,这会造双方想法的巧妙耦合,另外,想象一下你无意中搜索到的互不相干的两条信息都由同一个人提供,想必你们会有很多话要说。
4.搜索结果数目的极大精简。
5.搜索结果的实时性——不仅可以按照资源价值来排序,同样可以按照出现时间排序。

几点注意:
不同于挖客,不同于社会化书签,不同于谷歌国际站的搜索结果上升等功能。

我们来详细看一下这几点所谓的“革命性意义”,不是详细的从最终视图层面,而是从业务层面上说一下如何让这些意义变得具体。

从业务上讲,这样一个网络形态看上去反而很简单了,不过想想twitter是不是同样极度简单?爱因斯坦曾说过,“事物应当使其趋之简单,但不应简单过度。” 我以为然。这一句话应是惊醒多少梦中人。
从最重要的搜索框开始。最重要的不同是,你不能够随心所欲键入关键字——这是什么意思?想象一下google.com的Ajax下拉提示框,这个提示框我们也要,不过有一点,我们只要这个提示框,恩,没有"搜索“按钮,搜索的关键字只能是Ajax框中的内容,当你点击Ajax提示框中的项目时,才能进入搜索结果列表。Ajax框中的内容是什么呢?是根据你输入内容而随时变化的关键字列表。这些关键字列表又从何而来?对于Google,这些关键字列表来自于搜索者本身,而对于这东西,关键字列表来自于另一群用户——提供资源的用户。关键字是这些用户对这些资源的一个总结概括,不是标签,不是Tag,是关键字,中间最好不带空格。
那么什么是资源?
关于这一部分,我目前的设想是,资源主要是以链接形式存在(如QQ书签,百度搜藏等形式)。想象一下Google使用搜索引擎爬虫搜寻一个个url,而我们使用一个个人来提供互联网上的url,从这种角度看上去,它的确很高明——我们把每个个人都当作一个计算节点了。基于链接形式的资源指向站外,而站内的资源则可以是一个内容发布系统,并且提供导入其他网站博客文章到本站的功能。
接下来是核心的部分,即价值的评判系统。这里有一个简单的思路,即一切基于“人”这一元素,把“人”作为计算的节点,把“人”看作是计算机器中的一颗齿轮。因此,资源是没有价值评分的,只有人才有价值评分。这里是一些客观设定:对于一项搜索结果,每个用户有权利给于好评,差评,中评三种评论等级。好评将会提升被评用户的价值点数(+1),中评不改变价值点数,差评会降低被评用户的价值点数(-1),同时降低评论者的价值点数(-0.5)。(这一点像极了淘宝)搜索结果的排序便是根据个人的价值点数来排序。重复一次,资源本身没有价值评分。用户的价值点数可以这样极其简单的计算:用户价值点=该用户的所有资源评分总和。
这里有很多巧妙之处:1.当某用户的一项资源受到很多好评时,该用户的其他资源在搜索结果中的排位会随之上升,这会使该用户之后更加积极地发布资源。2.当该用户的价值较高导致他拥有的所有的资源排位均相对靠前时,他会受到更多的监督,如果他发布的某项资源恶俗不堪,他将会收获更多的恶评,导致价值点数下降。反之收获越来越多好评。这会达到一种动态平衡。3.发布资源的数目直接决定了该用户价值点数上升/下降速度,同样会产生激励作用。4.这或许会产生“强者恒强,弱者恒弱”的效应,那么此时网站的盈利模式就出现了:)

(待续,如果可以的话)


Zoom.Quiet

unread,
Jul 4, 2009, 10:03:44 AM7/4/09
to sociall...@googlegroups.com, sll2...@googlegroups.com, TopLanguage]列表
2009/7/4 刘子嘉 <xxmik...@gmail.com>:
> 事情是这样的。

很多好书也都是这么开始的,顶一下!
列表中先连载吧!

> 一天晚上睡觉正酣,突然头皮一紧,如醍醐灌顶般猛然惊醒,仿佛有人托梦于我,让那个时刻的我意识到了,互联网搜索引擎原来可以以另一种形式展现,Google所追求的差异化搜索,个性化搜索,以及个人知识、价值的汇集与整理,似乎可以通过另一种精妙的方式实现。
> 我难掩内心的狂喜,当晚就我把想法详细记录了下来,窃以为很有一些可行性。
> 在一次与庄老师的对话中,庄老师鼓励我将我的想法分享出来,于是就有了这样一封邮件,如果没有了庄老师的鼓励,可能我未必有信心分享这个奇思妙想。我设想了没有人在意这个想法,或是所有人都不以为然的情况,这很尴尬。
> 现在我把它完整的描述出来,无论有没有人关注。这里就开始:
> 暂时略去它的细节,从结果上来看,这个可能出现的搜索引擎将在以下几点里产生革命性的意义。简述如下:

> 1.搜索的返回结果排序依据将基于于资源的真正价值,而非传统搜索引擎如Google的纯计算机技术性的Pagerank算法。显而易见,所谓返回结果的"真正价值",来自于客观事物在人类意识中的反映,即,客观事物的价值由人们的主观意识赋予。因此,排序结果将抛弃一切计算机技术算法,而基于最伟大的智慧机器----人。


> 2.作为互联网的使用者,将不再简单盲目地在网络上作为信息产出者,这一全新网络形态将使得,用户在网络上的一切非原创性行为(如分享)及原创性行为被纳入搜索引擎的价值体系而被排序,用户会将获得因排序靠前而产生的价值实现感,进而被鼓励产生更多基于个人的价值信息。这是鼓励用户进行网络行为的有效方式。与此相对的是目前互联网中存在的所有信息发布系统。

> 3.精妙的社交功能。用户有两大行为:搜索与被搜索。关键字是联系两者的纽带,其中,被搜索者为资源提供关键字,而搜索者搜索关键字。一方面是某用户提供资源,并根据自己的认知指出资源的重点,另一方面是另一些用户的或有意,或无心的搜索之举----这很奇妙,这会造双方想法的巧妙耦合,另外,想象一下你无意中搜索到的互不相干的两条信息都由同一个人提供,想必你们会有很多话要说。
> 4.搜索结果数目的极大精简。
> 5.搜索结果的实时性----不仅可以按照资源价值来排序,同样可以按照出现时间排序。


>
> 几点注意:
> 不同于挖客,不同于社会化书签,不同于谷歌国际站的搜索结果上升等功能。
>
> 我们来详细看一下这几点所谓的"革命性意义",不是详细的从最终视图层面,而是从业务层面上说一下如何让这些意义变得具体。
>
> 从业务上讲,这样一个网络形态看上去反而很简单了,不过想想twitter是不是同样极度简单?爱因斯坦曾说过,"事物应当使其趋之简单,但不应简单过度。"
> 我以为然。这一句话应是惊醒多少梦中人。

> 从最重要的搜索框开始。最重要的不同是,你不能够随心所欲键入关键字----这是什么意思?想象一下google.com的Ajax下拉提示框,这个提示框我们也要,不过有一点,我们只要这个提示框,恩,没有"搜索"按钮,搜索的关键字只能是Ajax框中的内容,当你点击Ajax提示框中的项目时,才能进入搜索结果列表。Ajax框中的内容是什么呢?是根据你输入内容而随时变化的关键字列表。这些关键字列表又从何而来?对于Google,这些关键字列表来自于搜索者本身,而对于这东西,关键字列表来自于另一群用户----提供资源的用户。关键字是这些用户对这些资源的一个总结概括,不是标签,不是Tag,是关键字,中间最好不带空格。
> 那么什么是资源?
> 关于这一部分,我目前的设想是,资源主要是以链接形式存在(如QQ书签,百度搜藏等形式)。想象一下Google使用搜索引擎爬虫搜寻一个个url,而我们使用一个个人来提供互联网上的url,从这种角度看上去,它的确很高明----我们把每个个人都当作一个计算节点了。基于链接形式的资源指向站外,而站内的资源则可以是一个内容发布系统,并且提供导入其他网站博客文章到本站的功能。


> 接下来是核心的部分,即价值的评判系统。这里有一个简单的思路,即一切基于"人"这一元素,把"人"作为计算的节点,把"人"看作是计算机器中的一颗齿轮。因此,资源是没有价值评分的,只有人才有价值评分。这里是一些客观设定:对于一项搜索结果,每个用户有权利给于好评,差评,中评三种评论等级。好评将会提升被评用户的价值点数(+1),中评不改变价值点数,差评会降低被评用户的价值点数(-1),同时降低评论者的价值点数(-0.5)。(这一点像极了淘宝)搜索结果的排序便是根据个人的价值点数来排序。重复一次,资源本身没有价值评分。用户的价值点数可以这样极其简单的计算:用户价值点=该用户的所有资源评分总和。
> 这里有很多巧妙之处:1.当某用户的一项资源受到很多好评时,该用户的其他资源在搜索结果中的排位会随之上升,这会使该用户之后更加积极地发布资源。2.当该用户的价值较高导致他拥有的所有的资源排位均相对靠前时,他会受到更多的监督,如果他发布的某项资源恶俗不堪,他将会收获更多的恶评,导致价值点数下降。反之收获越来越多好评。这会达到一种动态平衡。3.发布资源的数目直接决定了该用户价值点数上升/下降速度,同样会产生激励作用。4.这或许会产生"强者恒强,弱者恒弱"的效应,那么此时网站的盈利模式就出现了:)
>
> (待续,如果可以的话)
>
>
>
> >
>

--
http://zoomquiet.org 人生苦短,Pythonic!-)
金山常年招聘Py/C++人才! http://bit.ly/UoTV 简历直投俺就成;-)

LiAndy

unread,
Jul 4, 2009, 10:17:47 AM7/4/09
to sll2...@googlegroups.com, sociall...@googlegroups.com, TopLanguage]列表
呵呵,尽快写,这些确实需要更多的人去了解、理解、思考,呵呵呵.........


Zoom.Quiet

unread,
Jul 4, 2009, 10:58:01 AM7/4/09
to sociall...@googlegroups.com, sll2...@googlegroups.com, TopLanguage]列表
2009/7/4 Zoom.Quiet <zoom....@gmail.com>:

> 2009/7/4 刘子嘉 <xxmik...@gmail.com>:
>> 事情是这样的。
>
> 很多好书也都是这么开始的,顶一下!

可惜太理想化了,完全没有核算人性,,,

...


>> 暂时略去它的细节,从结果上来看,这个可能出现的搜索引擎将在以下几点里产生革命性的意义。简述如下:
>> 1.搜索的返回结果排序依据将基于于资源的真正价值,而非传统搜索引擎如Google的纯计算机技术性的Pagerank算法。显而易见,所谓返回结果的"真正价值",来自于客观事物在人类意识中的反映,即,客观事物的价值由人们的主观意识赋予。因此,排序结果将抛弃一切计算机技术算法,而基于最伟大的智慧机器----人。
>> 2.作为互联网的使用者,将不再简单盲目地在网络上作为信息产出者,这一全新网络形态将使得,用户在网络上的一切非原创性行为(如分享)及原创性行为被纳入搜索引擎的价值体系而被排序,用户会将获得因排序靠前而产生的价值实现感,进而被鼓励产生更多基于个人的价值信息。这是鼓励用户进行网络行为的有效方式。与此相对的是目前互联网中存在的所有信息发布系统。

以上两点, 无法实现,,,因为,无法令大多数用户,主动进行信息质量的反馈,
不论人类发展到什么地步,面对巨量信息源,第一需求,只有娱乐,,,

>> 3.精妙的社交功能。用户有两大行为:搜索与被搜索。关键字是联系两者的纽带,其中,被搜索者为资源提供关键字,而搜索者搜索关键字。一方面是某用户提供资源,并根据自己的认知指出资源的重点,另一方面是另一些用户的或有意,或无心的搜索之举----这很奇妙,这会造双方想法的巧妙耦合,另外,想象一下你无意中搜索到的互不相干的两条信息都由同一个人提供,想必你们会有很多话要说。

参考:
怎样成为忽悠专家 - 译言翻译
http://www.yeeyan.com/articles/view/49656/48494

这种想法的耦合 是有模式的,是可以表演的,甚至有回报的商务性质的表演之,,,

>> 4.搜索结果数目的极大精简。

没有意义! 在精确性无法保证的时候,返回的数量多少,对于搜索本身,没有什么不同...

>> 5.搜索结果的实时性----不仅可以按照资源价值来排序,同样可以按照出现时间排序。
>>

也没有意义,现在的搜索引擎,都可以作到时间排序的,但是,正如第一点所强调,这和内容有用程度无关,
没有意义,,,

...


>> 从业务上讲,这样一个网络形态看上去反而很简单了,不过想想twitter是不是同样极度简单?爱因斯坦曾说过,"事物应当使其趋之简单,但不应简单过度。"
>> 我以为然。这一句话应是惊醒多少梦中人。

这是科学方面的体验,就搜索业务来讲,其后面的数学模型,的确应该这样,
但是运营形式,完全得吻合市场规模,和这些没有关系...

>> 从最重要的搜索框开始。最重要的不同是,你不能够随心所欲键入关键字----这是什么意思?

现在也一样哪,,,

除非,闲来无事儿,想测试一下搜索引擎,否则,有谁乱搜的?

>> 那么什么是资源?
>> 关于这一部分,我目前的设想是,资源主要是以链接形式存在(如QQ书签,百度搜藏等形式)。想象一下Google使用搜索引擎爬虫搜寻一个个url,而我们使用一个个人来提供互联网上的url,从这种角度看上去,它的确很高明----我们把每个个人都当作一个计算节点了。基于链接形式的资源指向站外,而站内的资源则可以是一个内容发布系统,并且提供导入其他网站博客文章到本站的功能。

实名质? 所有ZF 的梦想! 用户的最终恶梦!


>> 接下来是核心的部分,即价值的评判系统。

这里有一个不现实的隐藏假设:
- 假设所有用户,认真的对各种经手的URL 进行评判
类似服务从 Technorati 开始就有各种SNS 化的聚合+搜索服务推出,但是都无法形成 维基百科 的影响力,
就不要说 Google 那种公信力了,,,

>> (待续,如果可以的话)

继续支持,不过,根儿上太乐观了,无法推导出靠谱的产品概念的,,,


--
http://zoomquiet.org 人生苦短,Pythonic!-)
一个人如果力求完善自己,就会看到:为此也必须同时完善他人. 一个人如果不关心别人的完善,自己便不可能完善!

刘子嘉

unread,
Jul 5, 2009, 12:40:05 AM7/5/09
to sll2...@googlegroups.com, sociallearnlab
5.恶评别人的资源自己同样降低价值点数用于防止恶意恶评。


用户产生资源的价值,以及用户所获得的价值实现感始终是一点核心,我个人觉得,将个人价值实现感、个人信用等级(如淘宝)、个人威信等事物融入到一款互联网产品当中,而不是仅是一个功能型的互联网产品,将是最高明的做法,网络游戏之所以令人沉溺,实际上无非利用人的天性。互联网产品当中一旦融入人类与生俱来的情感,将会产生强悍的用户粘性。不过用户粘性只是商业上的说法,实际上,以价值为核心,始终鼓励用户产生有价值的内容,而不是在社交网络中浪费生命,我认为更具意义。

分析就此打住,中国是一个从不缺少分析家的国度。继续说一下这个引擎的客观设定。我尽量避免做一些信息流向,信息传播,Web2.0等等理念上的分析,这些东西我不认为有谁能够说的清楚,所以我只给出一个客观的引擎框架。

这里出现了一个问题,究竟什么是“具有价值”,是资源内容在科学领域有重大意义,还是资源内容比较独特新奇,还是对用户有用,或是资源比较稀缺而不易被发掘?说实话我并不喜欢维基百科的严肃刻板,我喜欢的是与众不同的、充满个人个性情感的、表达个体个性差异化的东西。因此从市场定位上说,所谓的“具有价值”的含义完全可以指“独特、小众、个性化”,并且不被Google、Baidu等排在前位的毫无新意的互联网资源。从这个思路思考下去,我们说的"具有价值“其意义便与90后的DDMM们挂在口中的一些东西等同起来了。市场上,这个引擎的受众人群将更加年轻化。这就好比告诉一个搜索引擎:我要一些好玩的东西。问题是单纯的计算机算法并不知道什么是"好玩“的,什么是“严谨的”,全看我们用户了。对一条信息判断之后,必然要进行信息反馈,用户的反馈方式有以下两种:1.简单的点击搜索结果某一条目旁的"好评"。2.针对条目的文字性评论。其中前者会涉及发布该资源用户的价值评分,并且要尽可能简便,包括UI上的设计。而后者会把每一个搜索关键字都变为一个以该关键字为核心的网上论坛。作为类似的一个讨论群组存在的搜索结果,将会体现出实时性的特点,之前的实时性体现在了这里。

因此,网站初期的用户行为导向十分重要。

当然了,所谓的"价值"还有其他的思路,比如如维基百科一般的纯理性化的知识内容被称作"价值“,不过,这可一点都不酷。

显而易见,这样一种方式所呈现的搜索结果全部可以对应相应的个体,每一项结果都有其对应的提供者,这样我们在看到一条自认为大有意义的互联网信息之时,我们可以直接查看该用户的用户页,进而了解这个个体。我们是如何找到这条资源的呢?搜索关键字,确切的说,是与自己输入字符相似的搜索关键字,而不是输入的字符(这就是"不能随心所欲输入关键字"的意思)。而这些关键字都是由资源提供者来提供的。这样一来一去,耦合就产生了。这种耦合完全没有必要刻意为之,因为用户在发布资源的时候,感觉就象是在发表一篇日志,或是添加一条网络书签,关键字是该用户对于该资源的概括。

搜索引擎排序结果除了根据用户价值点数排序外,另外一个排序依据是关系网络。和自己亲近的人排序靠前。我的朋友和我朋友的朋友会有不同的加权。基于关系网络的排序高于任何其他陌生用户的价值点数排序方式。社交系统可分为我关注的人,关注我的人,和我的朋友三个版块,我的朋友与我关注的人区别在于,我的朋友主要是现实中的朋友。其中仅有我的朋友部分采取实名制及真实头像制(也就是说,每个用户应提供两个名字和两个头像)。这一部分设定现在看来似乎可有可无,不过假如开展社交功能,却是个不可或缺的选择。

所以,这样一个网络形态融合了很多元素,但却不是刻意为之。
倒是行也不行?

GF.Ruan

unread,
Jul 5, 2009, 2:47:07 AM7/5/09
to sociall...@googlegroups.com
很有意思的想法。
不过这可能是基于所有的人都是理性的、无私的前提。
这样的架构在特定领域的共同体中可能会更具可行性,要做成统摄一切的、跨领域的、通用的搜索引擎的机制。恐怕还在太多的东西需要补充与完善。 



--
Gaofeng Ruan
Lab of Cognition&ICT, South China Nomal Univ.
Lecturer. College of Education, Zhejiang Normal Univ.
http://hi.baidu.com/ileo
http://www.et2x.cn
MSN/Gtalk: zjle...@gmail.com

张海

unread,
Jul 5, 2009, 3:29:41 AM7/5/09
to sociall...@googlegroups.com
好主意。不过几个地方没看懂。

向明

unread,
Jul 5, 2009, 10:19:35 AM7/5/09
to sociall...@googlegroups.com
建立数学模型了没?
先把数学模型建立起来吧。

2009/7/4 刘子嘉 <xxmik...@gmail.com>:
> 事情是这样的。

向明

unread,
Jul 5, 2009, 10:31:21 AM7/5/09
to sociall...@googlegroups.com
这样一来,就和你前面说的评分冲突了——太小众了,打不上分啊!
我想,你是在追求搜索结果个性化,对不对?
其实,Google也一直在朝这方面努力,以前就在做的根据用户IP缩小搜索范围,最近做的就是GooglePedia,用户对自己的搜索结果做出评价,或升级货降级。虽然这套系统目前还没什么用,但我完全能想象到,以后会和用户兴趣爱好结合起来,Google会主动猜测用户想找什么。

2009/7/5 刘子嘉 <xxmik...@gmail.com>:

刘子嘉

unread,
Jul 5, 2009, 10:51:45 AM7/5/09
to sociall...@googlegroups.com
数学模型原则是能简则简,能要一级运算不要二级运算。客观世界的许多东西需要极其复杂的数学模型才能描述清楚,有时就近乎不可能,比如大气规律及股市波动。所以干脆追求简单,结果发现并不复杂。

关于小众,我倒是觉得,只有小众的物,却没有严格意义的小众的人,打分是最后是对人的打分,资源本身不具有分值。

2009/7/5 向明 <ming....@gmail.com>
这样一来,就和你前面说的评分冲突了----太小众了,打不上分啊!

刘子嘉

unread,
Jul 5, 2009, 11:00:26 AM7/5/09
to sociallearnlab, sll2...@googlegroups.com
呃这个……科幻一下,人工智能是一项伟大的工程,可以想见Google会朝这个方向发展,在量子计算机出现之前,应是不会在短时期内产生革命性的突破,对用户感受的改善只能循序渐进,如果我是用户,我会说:不过就是这样嘛。

2009/7/5 向明 <ming....@gmail.com>

刘子嘉

unread,
Jul 7, 2009, 1:12:03 AM7/7/09
to sociallearnlab, sll2...@googlegroups.com

我还是决定自己着手做出来一个这样的应用,因为一个事实是,我需要一个这样的应用。打算用Rails开发,纯RESTful风格。尽管我还算是一个Rails新手...

2009/7/5 向明 <ming....@gmail.com>

> --~--~---------~--~----~------------~-------~--~----~ > 邮件来自 `SLL`(SocialLearnLab)"教育大发现"邮件列表 > 详情...


Reply all
Reply to author
Forward
0 new messages