我目前在做这方面的工作,有兴趣的可以一起讨论一下,获得灵感。
我对这个问题目前的了解是,比如有了user profile后,比如我们知道用户的年龄,性别。我们会假设同样年龄层的人喜好相同,同样职业的喜好相
同。这样的假设似乎是和数据集相关的,比如有些数据集中,同年龄的人喜好确实是相似的,但有些数据集中不是。
其实我的想法是如何把特征融合做到个性化,也就是说google的融合还是global的(当然也可能他个性化了,那我就孤陋寡闻了)
On Nov 9, 8:39 pm, 谷文栋 <wendell...@gmail.com> wrote:
> 这个帖子讨论的很热烈啊,我来插几句我所知道的,哈哈。
>
> 1. Google 自己说的,目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> 2. PR 在 Google 的质量评价体系里面,相对以前的重要性已经被大幅度降低了,据谣传权重不超过 20% 了。
> 3. Google 的 SEO 之所以众,自然是因为它的市场份额大。但有一点是值得注意的,Google 对 SEO 是开放的,他有一整套可供参考的
> SEO 准则。SEO 并不都是恶意的,你遵照 Google 给出的 SEO 准则去做,就适应了他的算法,在他的结果里的质量就高。并且,大多数愿意在
> SEO 投入精力,并且遵守 Google 规则的网站,都是质量不错的。这样,就形成了一个正循环的生态系统。当然了,对待不守规矩的捣乱分子,Google
> 也是不留情的。
> 4. Google 最后的融合公式,是靠他们的几个超级大牛们 Peter
> Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是
> Machine Learning 领域的鼻祖,他们都不信任 ML,让我非常地 faint。
> 5. Google 说了,全世界真正懂 Search 的工程师不超过 200 个,我们显然都不是。因此无所谓对错,大家共享交流 idea 就好了。
>
> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> > 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话,是可以和PR结合一下的(又涉及融合了)。
> > 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身(这个算法是公开的,其他SE也都可以实现的,而且我知道有些确实实现和使用了),除了relevance的处理以外,在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节,往往是决定性的。我同意你关于market
> > share影响效果的观点。有了更多的数据,就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> > BTW: 不好意思,本来是讨论推荐算法的,被我带跑题了:-(
> > Tiny:接下来的讨论咱们单独回给对方吧:-)
>
> > 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >> 我说的其实是经典的pr,我的意思是说核心的评价体系,如相关度,pagerank这类,必须是那种所有页面都具有的特征。相关度呢,紧密跟内容相关,主题相关。pagerank呢,紧密和结构相关,跟主题无关。拿topic
> >> sensitive
> >> page-rank来说,我打听说就觉得是好东西,但是他的不足很明显,当用户的搜索主题不明显的时候,网页主题不明显的时候,或者无法归纳的时候,它可能就会变成一个无意义的参数。也就是说,在用户搜索主题和网页主题明显的时候,他的作用可以让搜索效果提高一个等级,达到惊人的好。但是当不适应的时候,他可能就毫无用处。
>
> >> 这样的参数意义重大,在于如果全文检索领域没有出现新的这样的参数,我就可以说这个领域是没有大的突破的。
> >> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>> 不好意思,我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> >>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看,最大的一个竞争优势就是对网页的质量有更加客观的评价,而这个评价很大程度是来自于link
> >>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候,不能很好的评价信息质量的原因。
>
> >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>> google的结果并不是在每个结果上都完美无缺的,事实上,人人都可以发现无数的反例,在某个搜索上面yahoo的结果,或者微软的结果比google要好得多。但是为什么一开始,大家都觉得google的最好呢?这就是因为,yahoo和微软也许用了很多好的特征,而google有一个特征pagerank是全局性的,它也许不是每个点都最优的,但是它可以保证几乎所有的结果都不至于太差。
>
> >>>> 比较质量的时候,很多人喜欢用最好的去比较,这固然没错。但是值得注意的是,很多时候,虽然大家选择你是因为你有闪光点,但是离开你不一定是因为别人有什么比你多的闪光点(这就是路径依赖,换路径的好处不足够大的时候,用户不会普通选择更换路径的),一个果断的离开你的原因往往是你有缺点,用户无法绕过的问题等等(比如虽然大多数搜索结果都很好,但是某些重要的搜索就是搜不出来对的东西,比如对学生搜论文搜不好等等)。
>
> >>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西,有亮点,比没有缺点重要多了。也就是说,如果时不时有几个推荐,击中了用户脆弱的心灵,哪怕其他的一些推荐完全驴唇不对马嘴,用户还是会觉得跟推荐系统心有灵犀(当然有些具体情况要再说,这里只是泛泛而谈)。而搜索,在搜索大众内容的时候,用户其实是相当没有评价能力的,因为几家的结果往往大同小异(这就是很多我们心目中的垃圾,盲测的结果很可能不见得比google差)。用户往往只有在搜索某些词的时候,一个引擎结果丰富,另外一个完全没有结果,或者完全不知所云的时候,才会展现出雪亮的眼睛。
>
> >>>> seo
> >>>> spam的防止,Google无疑是做得最多和最好的。原因实际上更重要的是在于,第一,google市场份额一直很大,seo一般喜欢做Google的。第二,pagerank是公开的,人人都知道这个东西的存在,而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。其他的搜索引擎的核心评分机制外界往往不了解,无法验证。你可以看遍所有的seo文章,可以发现其他所有的引擎的seo一直没有系统可重复的方法。而google从一开始到现在,seo的核心永远是链接。
>
> >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>> topic sensitive page-ran
> >>>>> 那只是叫pagerank而已,跟pagerank本质上不是一个东西。特征哪里都有,甚至文章长短,图片颜色都有可能成为特征。pagerank的重要性来自于它的适用尺度,和主题无关性。虽然现在有无数的新的技术特征加进去,但是本质没有改变就在于此。topic
> >>>>> sensitive page-rank当然很重要,其他几百个特征也很重要,但是pagerank是决定性的。
>
> >>>>> 就像经济学里面有无数的指标,但是你绕不过价格,除非你不是一个真正的市场,扭曲了价格。
>
> >>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域,XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写了篇Re的文章,也不会因为她的博客本身的领域无关的PR比较高,而排在前面。这方面,有一篇经典的论文:topic
> >>>>>> sensitive
> >>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司,这家公司在还没有任何产品的时候,google就主动的找上了门,把它给收购(灭)了。所以Google有没有用上相关的技术也很难说。
>
> >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>>> google的特征是不可能少的,很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于,pagerank是一个跟主题无关的特征,它和相关度的结合是完美的。
>
> >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>>> 这个问题很有意思,也很重要。类比搜索,网页也有很多的特征,anchor, title,
> >>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征,而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工作的是一个人工智能领域比较牛的researcher。在他的工作之前,MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说,这样的手动方式的费时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)
>
> >>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>
>
> >>>>>>>>> 实际的推荐系统往往能获得很多特征,除了user-item矩阵外,还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。
>
> >>>>>>>>> 我目前在做这方面的工作,有兴趣的可以一起讨论一下,获得灵感。
>
> >>>>>>>>> 我对这个问题目前的了解是,比如有了user
> >>>>>>>>> profile后,比如我们知道用户的年龄,性别。我们会假设同样年龄层的人喜好相同,同样职业的喜好相
> >>>>>>>>> 同。这样的假设似乎是和数据集相关的,比如有些数据集中,同年龄的人喜好确实是相似的,但有些数据集中不是。
>
> >>>>>>>> --
> >>>>>>>> Feng
> >>>>>>>> Internet Innovator
>
> >>>>>>> --
> >>>>>>> Tinyfool的开发日记http://www.tinydust.net/dev/
> >>>>>>> 代码中国网http://www.codechina.org
> >>>>>>> myTwitter:http://twitter.com/tinyfool
>
> >>>>>> --
> >>>>>> Feng
> >>>>>> Internet Innovator
>
> >>>>> --
> >>>>> Tinyfool的开发日记http://www.tinydust.net/dev/
> >>>>> 代码中国网
>
> ...
>
> read more >>
On Nov 9, 8:53 pm, Tinyfool <tinyf...@gmail.com> wrote:
> 1、虽然包括google自己的人在内,都在说pagerank在下降,我还是不相信,原因可以看前面的讨论,总结起来,就是在全局尺度上,没有单一可以抗衡的标准。或者把话反过来说,即时其他的特征的分数再高,他们总有适用范围,在他们适用范围外,pagerank还是最强的。
> 2、一般人都不乐意相信google防止作弊没有人工调整,我是相信的。其一是在这个尺度下,人工调整会在带来有限结果改善的同时,破坏更多的搜索结果。以我们给客户做的站内搜索为例,每次为了满足客户一个特定需求去做出的调整,都会带来其他大量结果效果的破坏,在Google的尺度上就更加是了。其二每次google算法更改后,很快seo团体都会很快的产生一些对策,一些行之有效的方法会广泛流传,靠人工去黑白名单是很难枚举的。但是他们的对策,可以在google的算法更新后,一次性的解决。所以,它有大量的人工评价并不稀奇,但是调整是无法这么做的。
>
> 2009/11/9 谷文栋 <wendell...@gmail.com>
>
> > 还有一点,Google 有一个很大的 team 在人工评价搜索结果的质量。
>
> >http://www.mauriziopetrone.com/blog/wp-content/uploads/quality-rater-...
>
> > 2009/11/9 谷文栋 <wendell...@gmail.com>
>
> >> 这个帖子讨论的很热烈啊,我来插几句我所知道的,哈哈。
>
> >> 1. Google 自己说的,目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> >> 2. PR 在 Google 的质量评价体系里面,相对以前的重要性已经被大幅度降低了,据谣传权重不超过 20% 了。
> >> 3. Google 的 SEO 之所以众,自然是因为它的市场份额大。但有一点是值得注意的,Google 对 SEO
> >> 是开放的,他有一整套可供参考的 SEO 准则。SEO 并不都是恶意的,你遵照 Google 给出的 SEO
> >> 准则去做,就适应了他的算法,在他的结果里的质量就高。并且,大多数愿意在 SEO 投入精力,并且遵守 Google
> >> 规则的网站,都是质量不错的。这样,就形成了一个正循环的生态系统。当然了,对待不守规矩的捣乱分子,Google 也是不留情的。
> >> 4. Google 最后的融合公式,是靠他们的几个超级大牛们 Peter Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是 Machine Learning 领域的鼻祖,他们都不信任 ML,让我非常地 faint。
> >> 5. Google 说了,全世界真正懂 Search 的工程师不超过 200 个,我们显然都不是。因此无所谓对错,大家共享交流 idea
> >> 就好了。
>
> >> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>> 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话,是可以和PR结合一下的(又涉及融合了)。
> >>> 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身(这个算法是公开的,其他SE也都可以实现的,而且我知道有些确实实现和使用了),除了relevance的处理以外,在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节,往往是决定性的。我同意你关于market
> >>> share影响效果的观点。有了更多的数据,就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> >>> BTW: 不好意思,本来是讨论推荐算法的,被我带跑题了:-(
> >>> Tiny:接下来的讨论咱们单独回给对方吧:-)
>
> >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>> 我说的其实是经典的pr,我的意思是说核心的评价体系,如相关度,pagerank这类,必须是那种所有页面都具有的特征。相关度呢,紧密跟内容相关,主题相关。pagerank呢,紧密和结构相关,跟主题无关。拿topic
> >>>> sensitive
> >>>> page-rank来说,我打听说就觉得是好东西,但是他的不足很明显,当用户的搜索主题不明显的时候,网页主题不明显的时候,或者无法归纳的时候,它可能就会变成一个无意义的参数。也就是说,在用户搜索主题和网页主题明显的时候,他的作用可以让搜索效果提高一个等级,达到惊人的好。但是当不适应的时候,他可能就毫无用处。
>
> >>>> 这样的参数意义重大,在于如果全文检索领域没有出现新的这样的参数,我就可以说这个领域是没有大的突破的。
> >>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>> 不好意思,我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> >>>>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看,最大的一个竞争优势就是对网页的质量有更加客观的评价,而这个评价很大程度是来自于link
> >>>>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候,不能很好的评价信息质量的原因。
>
> >>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>> google的结果并不是在每个结果上都完美无缺的,事实上,人人都可以发现无数的反例,在某个搜索上面yahoo的结果,或者微软的结果比google要好得多。但是为什么一开始,大家都觉得google的最好呢?这就是因为,yahoo和微软也许用了很多好的特征,而google有一个特征pagerank是全局性的,它也许不是每个点都最优的,但是它可以保证几乎所有的结果都不至于太差。
>
> >>>>>> 比较质量的时候,很多人喜欢用最好的去比较,这固然没错。但是值得注意的是,很多时候,虽然大家选择你是因为你有闪光点,但是离开你不一定是因为别人有什么比你多的闪光点(这就是路径依赖,换路径的好处不足够大的时候,用户不会普通选择更换路径的),一个果断的离开你的原因往往是你有缺点,用户无法绕过的问题等等(比如虽然大多数搜索结果都很好,但是某些重要的搜索就是搜不出来对的东西,比如对学生搜论文搜不好等等)。
>
> >>>>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西,有亮点,比没有缺点重要多了。也就是说,如果时不时有几个推荐,击中了用户脆弱的心灵,哪怕其他的一些推荐完全驴唇不对马嘴,用户还是会觉得跟推荐系统心有灵犀(当然有些具体情况要再说,这里只是泛泛而谈)。而搜索,在搜索大众内容的时候,用户其实是相当没有评价能力的,因为几家的结果往往大同小异(这就是很多我们心目中的垃圾,盲测的结果很可能不见得比google差)。用户往往只有在搜索某些词的时候,一个引擎结果丰富,另外一个完全没有结果,或者完全不知所云的时候,才会展现出雪亮的眼睛。
>
> >>>>>> seo
> >>>>>> spam的防止,Google无疑是做得最多和最好的。原因实际上更重要的是在于,第一,google市场份额一直很大,seo一般喜欢做Google的。第二,pagerank是公开的,人人都知道这个东西的存在,而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。其他的搜索引擎的核心评分机制外界往往不了解,无法验证。你可以看遍所有的seo文章,可以发现其他所有的引擎的seo一直没有系统可重复的方法。而google从一开始到现在,seo的核心永远是链接。
>
> >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>>> topic sensitive page-ran
> >>>>>>> 那只是叫pagerank而已,跟pagerank本质上不是一个东西。特征哪里都有,甚至文章长短,图片颜色都有可能成为特征。pagerank的重要性来自于它的适用尺度,和主题无关性。虽然现在有无数的新的技术特征加进去,但是本质没有改变就在于此。topic
> >>>>>>> sensitive page-rank当然很重要,其他几百个特征也很重要,但是pagerank是决定性的。
>
> >>>>>>> 就像经济学里面有无数的指标,但是你绕不过价格,除非你不是一个真正的市场,扭曲了价格。
>
> >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域,XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写了篇Re的文章,也不会因为她的博客本身的领域无关的PR比较高,而排在前面。这方面,有一篇经典的论文:topic
> >>>>>>>> sensitive
> >>>>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司,这家公司在还没有任何产品的时候,google就主动的找上了门,把它给收购(灭)了。所以Google有没有用上相关的技术也很难说。
>
> >>>>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>>>>> google的特征是不可能少的,很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于,pagerank是一个跟主题无关的特征,它和相关度的结合是完美的。
>
> >>>>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>>>>> 这个问题很有意思,也很重要。类比搜索,网页也有很多的特征,anchor, title,
>
> ...
>
> read more >>
这篇文章中Section 3.3中的问题的研究现状,有没有人了解
像这个帖子就比较适合用Wave来讨论了,哈哈
On Nov 9, 8:45 pm, 谷文栋 <wendell...@gmail.com> wrote:
> 还有一点,Google 有一个很大的 team 在人工评价搜索结果的质量。http://www.mauriziopetrone.com/blog/wp-content/uploads/quality-rater-...
>
> 2009/11/9 谷文栋 <wendell...@gmail.com>
>
> > 这个帖子讨论的很热烈啊,我来插几句我所知道的,哈哈。
>
> > 1. Google 自己说的,目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> > 2. PR 在 Google 的质量评价体系里面,相对以前的重要性已经被大幅度降低了,据谣传权重不超过 20% 了。
> > 3. Google 的 SEO 之所以众,自然是因为它的市场份额大。但有一点是值得注意的,Google 对 SEO
> > 是开放的,他有一整套可供参考的 SEO 准则。SEO 并不都是恶意的,你遵照 Google 给出的 SEO
> > 准则去做,就适应了他的算法,在他的结果里的质量就高。并且,大多数愿意在 SEO 投入精力,并且遵守 Google
> > 规则的网站,都是质量不错的。这样,就形成了一个正循环的生态系统。当然了,对待不守规矩的捣乱分子,Google 也是不留情的。
> > 4. Google 最后的融合公式,是靠他们的几个超级大牛们 Peter Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是 Machine Learning 领域的鼻祖,他们都不信任 ML,让我非常地 faint。
> > 5. Google 说了,全世界真正懂 Search 的工程师不超过 200 个,我们显然都不是。因此无所谓对错,大家共享交流 idea
> > 就好了。
>
> > 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >> 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话,是可以和PR结合一下的(又涉及融合了)。
> >> 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身(这个算法是公开的,其他SE也都可以实现的,而且我知道有些确实实现和使用了),除了relevance的处理以外,在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节,往往是决定性的。我同意你关于market
> >> share影响效果的观点。有了更多的数据,就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> >> BTW: 不好意思,本来是讨论推荐算法的,被我带跑题了:-(
> >> Tiny:接下来的讨论咱们单独回给对方吧:-)
>
> >> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>> 我说的其实是经典的pr,我的意思是说核心的评价体系,如相关度,pagerank这类,必须是那种所有页面都具有的特征。相关度呢,紧密跟内容相关,主题相关。pagerank呢,紧密和结构相关,跟主题无关。拿topic
> >>> sensitive
> >>> page-rank来说,我打听说就觉得是好东西,但是他的不足很明显,当用户的搜索主题不明显的时候,网页主题不明显的时候,或者无法归纳的时候,它可能就会变成一个无意义的参数。也就是说,在用户搜索主题和网页主题明显的时候,他的作用可以让搜索效果提高一个等级,达到惊人的好。但是当不适应的时候,他可能就毫无用处。
>
> >>> 这样的参数意义重大,在于如果全文检索领域没有出现新的这样的参数,我就可以说这个领域是没有大的突破的。
> >>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>> 不好意思,我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> >>>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看,最大的一个竞争优势就是对网页的质量有更加客观的评价,而这个评价很大程度是来自于link
> >>>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候,不能很好的评价信息质量的原因。
>
> >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>> google的结果并不是在每个结果上都完美无缺的,事实上,人人都可以发现无数的反例,在某个搜索上面yahoo的结果,或者微软的结果比google要好得多。但是为什么一开始,大家都觉得google的最好呢?这就是因为,yahoo和微软也许用了很多好的特征,而google有一个特征pagerank是全局性的,它也许不是每个点都最优的,但是它可以保证几乎所有的结果都不至于太差。
>
> >>>>> 比较质量的时候,很多人喜欢用最好的去比较,这固然没错。但是值得注意的是,很多时候,虽然大家选择你是因为你有闪光点,但是离开你不一定是因为别人有什么比你多的闪光点(这就是路径依赖,换路径的好处不足够大的时候,用户不会普通选择更换路径的),一个果断的离开你的原因往往是你有缺点,用户无法绕过的问题等等(比如虽然大多数搜索结果都很好,但是某些重要的搜索就是搜不出来对的东西,比如对学生搜论文搜不好等等)。
>
> >>>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西,有亮点,比没有缺点重要多了。也就是说,如果时不时有几个推荐,击中了用户脆弱的心灵,哪怕其他的一些推荐完全驴唇不对马嘴,用户还是会觉得跟推荐系统心有灵犀(当然有些具体情况要再说,这里只是泛泛而谈)。而搜索,在搜索大众内容的时候,用户其实是相当没有评价能力的,因为几家的结果往往大同小异(这就是很多我们心目中的垃圾,盲测的结果很可能不见得比google差)。用户往往只有在搜索某些词的时候,一个引擎结果丰富,另外一个完全没有结果,或者完全不知所云的时候,才会展现出雪亮的眼睛。
>
> >>>>> seo
> >>>>> spam的防止,Google无疑是做得最多和最好的。原因实际上更重要的是在于,第一,google市场份额一直很大,seo一般喜欢做Google的。第二,pagerank是公开的,人人都知道这个东西的存在,而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。其他的搜索引擎的核心评分机制外界往往不了解,无法验证。你可以看遍所有的seo文章,可以发现其他所有的引擎的seo一直没有系统可重复的方法。而google从一开始到现在,seo的核心永远是链接。
>
> >>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>> topic sensitive page-ran
> >>>>>> 那只是叫pagerank而已,跟pagerank本质上不是一个东西。特征哪里都有,甚至文章长短,图片颜色都有可能成为特征。pagerank的重要性来自于它的适用尺度,和主题无关性。虽然现在有无数的新的技术特征加进去,但是本质没有改变就在于此。topic
> >>>>>> sensitive page-rank当然很重要,其他几百个特征也很重要,但是pagerank是决定性的。
>
> >>>>>> 就像经济学里面有无数的指标,但是你绕不过价格,除非你不是一个真正的市场,扭曲了价格。
>
> >>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域,XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写了篇Re的文章,也不会因为她的博客本身的领域无关的PR比较高,而排在前面。这方面,有一篇经典的论文:topic
> >>>>>>> sensitive
> >>>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司,这家公司在还没有任何产品的时候,google就主动的找上了门,把它给收购(灭)了。所以Google有没有用上相关的技术也很难说。
>
> >>>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>>>> google的特征是不可能少的,很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于,pagerank是一个跟主题无关的特征,它和相关度的结合是完美的。
>
> >>>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>>>> 这个问题很有意思,也很重要。类比搜索,网页也有很多的特征,anchor, title,
> >>>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征,而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工作的是一个人工智能领域比较牛的researcher。在他的工作之前,MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说,这样的手动方式的费时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)
>
> >>>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>
>
> >>>>>>>>>> 实际的推荐系统往往能获得很多特征,除了user-item矩阵外,还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。
>
> >>>>>>>>>> 我目前在做这方面的工作,有兴趣的可以一起讨论一下,获得灵感。
>
> >>>>>>>>>> 我对这个问题目前的了解是,比如有了user
> >>>>>>>>>> profile后,比如我们知道用户的年龄,性别。我们会假设同样年龄层的人喜好相同,同样职业的喜好相
> >>>>>>>>>> 同。这样的假设似乎是和数据集相关的,比如有些数据集中,同年龄的人喜好确实是相似的,但有些数据集中不是。
>
> >>>>>>>>> --
> >>>>>>>>> Feng
> >>>>>>>>> Internet Innovator
>
> >>>>>>>> --
>
> ...
>
> read more >>
On Nov 9, 8:56 pm, Tinyfool <tinyf...@gmail.com> wrote:
> 我觉得如果你把一个搜索的相关度,看作个性化信息,把pagerank,以及其他等等特征当作全局的信息。那么相关度和其他信息的融合,其实跟个性化的融合就是一个问题了。
>
> 2009/11/9 xlvector <xlvec...@gmail.com>
> ...
>
> read more >>
On Nov 9, 9:08 pm, 谷文栋 <wendell...@gmail.com> wrote:
> 看来有必要温故而知新一下这个paper了,老早前读的,整个忘了一干净。
>
> 2009/11/9 xlvector <xlvec...@gmail.com>
> ...
>
> read more >>
On Nov 9, 4:39 am, 谷文栋 <wendell...@gmail.com> wrote:
> 这个帖子讨论的很热烈啊,我来插几句我所知道的,哈哈。
>
> 1. Google 自己说的,目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> 2. PR 在 Google 的质量评价体系里面,相对以前的重要性已经被大幅度降低了,据谣传权重不超过 20% 了。
> 3. Google 的 SEO 之所以众,自然是因为它的市场份额大。但有一点是值得注意的,Google 对 SEO 是开放的,他有一整套可供参考的
> SEO 准则。SEO 并不都是恶意的,你遵照 Google 给出的 SEO 准则去做,就适应了他的算法,在他的结果里的质量就高。并且,大多数愿意在
> SEO 投入精力,并且遵守 Google 规则的网站,都是质量不错的。这样,就形成了一个正循环的生态系统。当然了,对待不守规矩的捣乱分子,Google
> 也是不留情的。
> 4. Google 最后的融合公式,是靠他们的几个超级大牛们 Peter
> Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是
> Machine Learning 领域的鼻祖,他们都不信任 ML,让我非常地 faint。
> 5. Google 说了,全世界真正懂 Search 的工程师不超过 200 个,我们显然都不是。因此无所谓对错,大家共享交流 idea 就好了。
>
> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
>
>
> > 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话,是可以和PR结合一下的(又涉及融合了)。
> > 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身(这个算法是公开的,其他SE也都可以实现的,而且我知道有些确实实现和使用了)-,除了relevance的处理以外,在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节,往往是决定性的。我同意你关于marke-t
> > share影响效果的观点。有了更多的数据,就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> > BTW: 不好意思,本来是讨论推荐算法的,被我带跑题了:-(
> > Tiny:接下来的讨论咱们单独回给对方吧:-)
>
> > 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >> 我说的其实是经典的pr,我的意思是说核心的评价体系,如相关度,pagerank这类,必须是那种所有页面都具有的特征。相关度呢,紧密跟内容相关,主题相关-。pagerank呢,紧密和结构相关,跟主题无关。拿topic
> >> sensitive
> >> page-rank来说,我打听说就觉得是好东西,但是他的不足很明显,当用户的搜索主题不明显的时候,网页主题不明显的时候,或者无法归纳的时候,它可能就会-变成一个无意义的参数。也就是说,在用户搜索主题和网页主题明显的时候,他的作用可以让搜索效果提高一个等级,达到惊人的好。但是当不适应的时候,他可能就毫无-用处。
>
> >> 这样的参数意义重大,在于如果全文检索领域没有出现新的这样的参数,我就可以说这个领域是没有大的突破的。
> >> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>> 不好意思,我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> >>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看,最大的一个竞争优势就是对网页的质量有更加客观的评价,而这个评价很大程度是来自-于link
> >>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候,不能很好的评价信息质量的原因。
>
> >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>> google的结果并不是在每个结果上都完美无缺的,事实上,人人都可以发现无数的反例,在某个搜索上面yahoo的结果,或者微软的结果比google要好得-多。但是为什么一开始,大家都觉得google的最好呢?这就是因为,yahoo和微软也许用了很多好的特征,而google有一个特征pagerank是全局-性的,它也许不是每个点都最优的,但是它可以保证几乎所有的结果都不至于太差。
>
> >>>> 比较质量的时候,很多人喜欢用最好的去比较,这固然没错。但是值得注意的是,很多时候,虽然大家选择你是因为你有闪光点,但是离开你不一定是因为别人有什么比你-多的闪光点(这就是路径依赖,换路径的好处不足够大的时候,用户不会普通选择更换路径的),一个果断的离开你的原因往往是你有缺点,用户无法绕过的问题等等(比-如虽然大多数搜索结果都很好,但是某些重要的搜索就是搜不出来对的东西,比如对学生搜论文搜不好等等)。
>
> >>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西,有亮点,比没有缺点重要多了。也就是说,如果时不时有几个推荐,击中了用户脆弱的心灵,哪怕其-他的一些推荐完全驴唇不对马嘴,用户还是会觉得跟推荐系统心有灵犀(当然有些具体情况要再说,这里只是泛泛而谈)。而搜索,在搜索大众内容的时候,用户其实是相-当没有评价能力的,因为几家的结果往往大同小异(这就是很多我们心目中的垃圾,盲测的结果很可能不见得比google差)。用户往往只有在搜索某些词的时候,一-个引擎结果丰富,另外一个完全没有结果,或者完全不知所云的时候,才会展现出雪亮的眼睛。
>
> >>>> seo
> >>>> spam的防止,Google无疑是做得最多和最好的。原因实际上更重要的是在于,第一,google市场份额一直很大,seo一般喜欢做Google的。第二-,pagerank是公开的,人人都知道这个东西的存在,而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。-其他的搜索引擎的核心评分机制外界往往不了解,无法验证。你可以看遍所有的seo文章,可以发现其他所有的引擎的seo一直没有系统可重复的方法。而googl-e从一开始到现在,seo的核心永远是链接。
>
> >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>> topic sensitive page-ran
> >>>>> 那只是叫pagerank而已,跟pagerank本质上不是一个东西。特征哪里都有,甚至文章长短,图片颜色都有可能成为特征。pagerank的重要性来自-于它的适用尺度,和主题无关性。虽然现在有无数的新的技术特征加进去,但是本质没有改变就在于此。topic
> >>>>> sensitive page-rank当然很重要,其他几百个特征也很重要,但是pagerank是决定性的。
>
> >>>>> 就像经济学里面有无数的指标,但是你绕不过价格,除非你不是一个真正的市场,扭曲了价格。
>
> >>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域,XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写-了篇Re的文章,也不会因为她的博客本身的领域无关的PR比较高,而排在前面。这方面,有一篇经典的论文:topic
> >>>>>> sensitive
> >>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司,这家公司在还没有任何产品的时候,google就主动的找上了门,把它给收购-(灭)了。所以Google有没有用上相关的技术也很难说。
>
> >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>>> google的特征是不可能少的,很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于,pagerank是-一个跟主题无关的特征,它和相关度的结合是完美的。
>
> >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>>> 这个问题很有意思,也很重要。类比搜索,网页也有很多的特征,anchor, title,
> >>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征,而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工-作的是一个人工智能领域比较牛的researcher。在他的工作之前,MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说,这样的手动方式的费-时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)
>
> >>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>
>
> >>>>>>>>> 实际的推荐系统往往能获得很多特征,除了user-item矩阵外,还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。
>
> >>>>>>>>> 我目前在做这方面的工作,有兴趣的可以一起讨论一下,获得灵感。
>
> >>>>>>>>> 我对这个问题目前的了解是,比如有了user
> >>>>>>>>> profile后,比如我们知道用户的年龄,性别。我们会假设同样年龄层的人喜好相同,同样职业的喜好相
> >>>>>>>>> 同。这样的假设似乎是和数据集相关的,比如有些数据集中,同年龄的人喜好确实是相似的,但有些数据集中不是。
>
> >>>>>>>> --
> >>>>>>>> Feng
> >>>>>>>> Internet Innovator
>
> >>>>>>> --
> >>>>>>> Tinyfool的开发日记http://www.tinydust.net/dev/
> >>>>>>> 代码中国网http://www.codechina.org
> >>>>>>> myTwitter:http://twitter.com/tinyfool
>
> >>>>>> --
> >>>>>> Feng
> >>>>>> Internet Innovator
>
> >>>>> --
> >>>>> Tinyfool的开发日记http://www.tinydust.net/dev/
> >>>>> 代码中国网
>
> ...
>
> read more >>- Hide quoted text -
>
> - Show quoted text -
> ...
>
> read more >>
On 11月9日, 下午10时07分, raullew <raul...@hotmail.com> wrote:
> 4。没错。ML通常只能求系数而不能求结构,而对于理解世界来说,有阐述结构的理论才是本质的,求系数只是个计算机运算而已
>
> On Nov 9, 4:39 am, 谷文栋 <wendell...@gmail.com> wrote:
>
>
>
> > 这个帖子讨论的很热烈啊,我来插几句我所知道的,哈哈。
>
> > 1. Google 自己说的,目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> > 2. PR 在 Google 的质量评价体系里面,相对以前的重要性已经被大幅度降低了,据谣传权重不超过 20% 了。
> > 3. Google 的 SEO 之所以众,自然是因为它的市场份额大。但有一点是值得注意的,Google 对 SEO 是开放的,他有一整套可供参考的
> > SEO 准则。SEO 并不都是恶意的,你遵照 Google 给出的 SEO 准则去做,就适应了他的算法,在他的结果里的质量就高。并且,大多数愿意在
> > SEO 投入精力,并且遵守 Google 规则的网站,都是质量不错的。这样,就形成了一个正循环的生态系统。当然了,对待不守规矩的捣乱分子,Google
> > 也是不留情的。
> > 4. Google 最后的融合公式,是靠他们的几个超级大牛们 Peter
> > Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是
> > Machine Learning 领域的鼻祖,他们都不信任 ML,让我非常地 faint。
> > 5. Google 说了,全世界真正懂 Search 的工程师不超过 200 个,我们显然都不是。因此无所谓对错,大家共享交流 idea 就好了。
>
> > 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> > > 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话,是可以和PR结合一下的(又涉及融合了)。
> > > 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身(这个算法是公开的,其他SE也都可以实现的,而且我知道有些确实实现和使用了)--,除了relevance的处理以外,在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节,往往是决定性的。我同意你关于mark-e-t
> > > share影响效果的观点。有了更多的数据,就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> > > BTW: 不好意思,本来是讨论推荐算法的,被我带跑题了:-(
> > > Tiny:接下来的讨论咱们单独回给对方吧:-)
>
> > > 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> > >> 我说的其实是经典的pr,我的意思是说核心的评价体系,如相关度,pagerank这类,必须是那种所有页面都具有的特征。相关度呢,紧密跟内容相关,主题相关--。pagerank呢,紧密和结构相关,跟主题无关。拿topic
> > >> sensitive
> > >> page-rank来说,我打听说就觉得是好东西,但是他的不足很明显,当用户的搜索主题不明显的时候,网页主题不明显的时候,或者无法归纳的时候,它可能就会--变成一个无意义的参数。也就是说,在用户搜索主题和网页主题明显的时候,他的作用可以让搜索效果提高一个等级,达到惊人的好。但是当不适应的时候,他可能就毫-无-用处。
>
> > >> 这样的参数意义重大,在于如果全文检索领域没有出现新的这样的参数,我就可以说这个领域是没有大的突破的。
> > >> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> > >>> 不好意思,我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> > >>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看,最大的一个竞争优势就是对网页的质量有更加客观的评价,而这个评价很大程度是来自--于link
> > >>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候,不能很好的评价信息质量的原因。
>
> > >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> > >>>> google的结果并不是在每个结果上都完美无缺的,事实上,人人都可以发现无数的反例,在某个搜索上面yahoo的结果,或者微软的结果比google要好得--多。但是为什么一开始,大家都觉得google的最好呢?这就是因为,yahoo和微软也许用了很多好的特征,而google有一个特征pagerank是全-局-性的,它也许不是每个点都最优的,但是它可以保证几乎所有的结果都不至于太差。
>
> > >>>> 比较质量的时候,很多人喜欢用最好的去比较,这固然没错。但是值得注意的是,很多时候,虽然大家选择你是因为你有闪光点,但是离开你不一定是因为别人有什么比你--多的闪光点(这就是路径依赖,换路径的好处不足够大的时候,用户不会普通选择更换路径的),一个果断的离开你的原因往往是你有缺点,用户无法绕过的问题等等(-比-如虽然大多数搜索结果都很好,但是某些重要的搜索就是搜不出来对的东西,比如对学生搜论文搜不好等等)。
>
> > >>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西,有亮点,比没有缺点重要多了。也就是说,如果时不时有几个推荐,击中了用户脆弱的心灵,哪怕其--他的一些推荐完全驴唇不对马嘴,用户还是会觉得跟推荐系统心有灵犀(当然有些具体情况要再说,这里只是泛泛而谈)。而搜索,在搜索大众内容的时候,用户其实是-相-当没有评价能力的,因为几家的结果往往大同小异(这就是很多我们心目中的垃圾,盲测的结果很可能不见得比google差)。用户往往只有在搜索某些词的时候-,一-个引擎结果丰富,另外一个完全没有结果,或者完全不知所云的时候,才会展现出雪亮的眼睛。
>
> > >>>> seo
> > >>>> spam的防止,Google无疑是做得最多和最好的。原因实际上更重要的是在于,第一,google市场份额一直很大,seo一般喜欢做Google的。第二--,pagerank是公开的,人人都知道这个东西的存在,而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的-。-其他的搜索引擎的核心评分机制外界往往不了解,无法验证。你可以看遍所有的seo文章,可以发现其他所有的引擎的seo一直没有系统可重复的方法。而goo-gl-e从一开始到现在,seo的核心永远是链接。
>
> > >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> > >>>>> topic sensitive page-ran
> > >>>>> 那只是叫pagerank而已,跟pagerank本质上不是一个东西。特征哪里都有,甚至文章长短,图片颜色都有可能成为特征。pagerank的重要性来自--于它的适用尺度,和主题无关性。虽然现在有无数的新的技术特征加进去,但是本质没有改变就在于此。topic
> > >>>>> sensitive page-rank当然很重要,其他几百个特征也很重要,但是pagerank是决定性的。
>
> > >>>>> 就像经济学里面有无数的指标,但是你绕不过价格,除非你不是一个真正的市场,扭曲了价格。
>
> > >>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> > >>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域,XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写--了篇Re的文章,也不会因为她的博客本身的领域无关的PR比较高,而排在前面。这方面,有一篇经典的论文:topic
> > >>>>>> sensitive
> > >>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司,这家公司在还没有任何产品的时候,google就主动的找上了门,把它给收购--(灭)了。所以Google有没有用上相关的技术也很难说。
>
> > >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> > >>>>>>> google的特征是不可能少的,很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于,pagerank是--一个跟主题无关的特征,它和相关度的结合是完美的。
>
> > >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> > >>>>>>> 这个问题很有意思,也很重要。类比搜索,网页也有很多的特征,anchor, title,
> > >>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征,而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工--作的是一个人工智能领域比较牛的researcher。在他的工作之前,MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说,这样的手动方式的-费-时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)
>
> > >>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>
>
> > >>>>>>>>> 实际的推荐系统往往能获得很多特征,除了user-item矩阵外,还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。
>
> > >>>>>>>>> 我目前在做这方面的工作,有兴趣的可以一起讨论一下,获得灵感。
>
> > >>>>>>>>> 我对这个问题目前的了解是,比如有了user
> > >>>>>>>>> profile后,比如我们知道用户的年龄,性别。我们会假设同样年龄层的人喜好相同,同样职业的喜好相
> > >>>>>>>>> 同。这样的假设似乎是和数据集相关的,比如有些数据集中,同年龄的人喜好确实是相似的,但有些数据集中不是。
>
> > >>>>>>>> --
> > >>>>>>>> Feng
> > >>>>>>>> Internet Innovator
>
> > >>>>>>> --
> > >>>>>>> Tinyfool的开发日记http://www.tinydust.net/dev/
> > >>>>>>> 代码中国网http://www.codechina.org
> > >>>>>>> myTwitter:http://twitter.com/tinyfool
>
> > >>>>>> --
> > >>>>>> Feng
>
> ...
>
> 阅读更多 >>- 隐藏被引用文字 -
>
> - 显示引用的文字 -