多特征的推荐系统

xlvector

unread,

Nov 8, 2009, 9:41:44 PM11/8/09

to Resys

实际的推荐系统往往能获得很多特征，除了user-item矩阵外，还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。

我目前在做这方面的工作，有兴趣的可以一起讨论一下，获得灵感。

我对这个问题目前的了解是，比如有了user profile后，比如我们知道用户的年龄，性别。我们会假设同样年龄层的人喜好相同，同样职业的喜好相
同。这样的假设似乎是和数据集相关的，比如有些数据集中，同年龄的人喜好确实是相似的，但有些数据集中不是。

Sinofish

unread,

Nov 9, 2009, 1:36:50 AM11/9/09

to re...@googlegroups.com

我有两点想法：
1、实际的推荐系统应该利用这些特征，但是少用特征。这是我的直觉，简单的就是好的
2、按年龄，性别或职业分组是靠谱的，MovieLens上的数据支持这个结果。

2009/11/9 xlvector <xlve...@gmail.com>

Feng Jing

unread,

Nov 9, 2009, 4:59:21 AM11/9/09

to re...@googlegroups.com

这个问题很有意思，也很重要。类比搜索，网页也有很多的特征，anchor, title, bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征，而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工作的是一个人工智能领域比较牛的researcher。在他的工作之前，MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说，这样的手动方式的费时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)

2009/11/9 xlvector <xlve...@gmail.com>

--
Feng
Internet Innovator

Tinyfool

unread,

Nov 9, 2009, 5:12:01 AM11/9/09

to re...@googlegroups.com

google的特征是不可能少的，很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于，pagerank是一个跟主题无关的特征，它和相关度的结合是完美的。

2009/11/9 Feng Jing <scene...@gmail.com>

--
Tinyfool的开发日记 http://www.tinydust.net/dev/
代码中国网 http://www.codechina.org
myTwitter: http://twitter.com/tinyfool

Feng Jing

unread,

Nov 9, 2009, 5:41:19 AM11/9/09

to re...@googlegroups.com

嗯，我说的不多就是指几百个，呵呵。
Pagerank早已经不是什么秘密了，MS和Yahoo都用了相关的技术。Google更牛的应该在spam的detection上。简单的用PR是很难处理link spam的。Google在网页质量的处理上花了很大的功夫，也积累了很多经验（比如黑白名单什么的）。Matt Cutt就在google负责这个。因为Google对网页的质量很自信，所以它还把这个东东用在了crawl上。对不同quality的网页采用不同的crawl策略。可以参考一下这篇文章和其他SEO相关的文章。

2009/11/9 Tinyfool <tiny...@gmail.com>

--
Feng
Internet Innovator

Feng Jing

unread,

Nov 9, 2009, 5:47:26 AM11/9/09

to re...@googlegroups.com

另外和网页主题相关的PR也是有道理的。比如在Recommendation领域，XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写了篇Re的文章，也不会因为她的博客本身的领域无关的PR比较高，而排在前面。这方面，有一篇经典的论文：topic sensitive page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司，这家公司在还没有任何产品的时候，google就主动的找上了门，把它给收购（灭）了。所以Google有没有用上相关的技术也很难说。

2009/11/9 Tinyfool <tiny...@gmail.com>

--
Feng
Internet Innovator

Tinyfool

unread,

Nov 9, 2009, 5:53:10 AM11/9/09

to re...@googlegroups.com

topic sensitive page-ran那只是叫pagerank而已，跟pagerank本质上不是一个东西。特征哪里都有，甚至文章长短，图片颜色都有可能成为特征。pagerank的重要性来自于它的适用尺度，和主题无关性。虽然现在有无数的新的技术特征加进去，但是本质没有改变就在于此。topic sensitive page-rank当然很重要，其他几百个特征也很重要，但是pagerank是决定性的。

就像经济学里面有无数的指标，但是你绕不过价格，除非你不是一个真正的市场，扭曲了价格。

2009/11/9 Feng Jing <scene...@gmail.com>

Tinyfool

unread,

Nov 9, 2009, 6:11:36 AM11/9/09

to re...@googlegroups.com

google的结果并不是在每个结果上都完美无缺的，事实上，人人都可以发现无数的反例，在某个搜索上面yahoo的结果，或者微软的结果比google要好得多。但是为什么一开始，大家都觉得google的最好呢？这就是因为，yahoo和微软也许用了很多好的特征，而google有一个特征pagerank是全局性的，它也许不是每个点都最优的，但是它可以保证几乎所有的结果都不至于太差。

比较质量的时候，很多人喜欢用最好的去比较，这固然没错。但是值得注意的是，很多时候，虽然大家选择你是因为你有闪光点，但是离开你不一定是因为别人有什么比你多的闪光点（这就是路径依赖，换路径的好处不足够大的时候，用户不会普通选择更换路径的），一个果断的离开你的原因往往是你有缺点，用户无法绕过的问题等等（比如虽然大多数搜索结果都很好，但是某些重要的搜索就是搜不出来对的东西，比如对学生搜论文搜不好等等）。

当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西，有亮点，比没有缺点重要多了。也就是说，如果时不时有几个推荐，击中了用户脆弱的心灵，哪怕其他的一些推荐完全驴唇不对马嘴，用户还是会觉得跟推荐系统心有灵犀（当然有些具体情况要再说，这里只是泛泛而谈）。而搜索，在搜索大众内容的时候，用户其实是相当没有评价能力的，因为几家的结果往往大同小异（这就是很多我们心目中的垃圾，盲测的结果很可能不见得比google差）。用户往往只有在搜索某些词的时候，一个引擎结果丰富，另外一个完全没有结果，或者完全不知所云的时候，才会展现出雪亮的眼睛。

seo spam的防止，Google无疑是做得最多和最好的。原因实际上更重要的是在于，第一，google市场份额一直很大，seo一般喜欢做Google的。第二，pagerank是公开的，人人都知道这个东西的存在，而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。其他的搜索引擎的核心评分机制外界往往不了解，无法验证。你可以看遍所有的seo文章，可以发现其他所有的引擎的seo一直没有系统可重复的方法。而google从一开始到现在，seo的核心永远是链接。

2009/11/9 Tinyfool <tiny...@gmail.com>

Feng Jing

unread,

Nov 9, 2009, 6:17:29 AM11/9/09

to re...@googlegroups.com

我并没有否认PR的伟大和重要呀，呵呵。
我的观点是通常意义的PR（Larry Page的Paper里面的）具有划时代的意义，它让google可以在搜索质量上明显的优于它之前的se，如infoseek, altavista等。
其实我们讨论的是网页质量的评价的问题。我相信网页质量的评价不是简单的PR一个指标的。应该是多个指标综合的结果（也是多特征的融合:-))。比如中文搜索里面，百度就很强调UGC的东西（尤其是它自己的）。而很多UGC的东西用PR是得不到太高的分的（这个我不方便说细节，我知道微软大概是怎么评价这些网页的质量的）。另外，就是对spam的处理。简单的PR是不能很好的处理Link-farm这种spam的。这方面也有一篇很经典的Paper：Combating web spam with trustrank。总之，在网页的质量评价里面，PR是一个因素，另外还有很多其他的因素，甚至有些是人工的。

2009/11/9 Tinyfool <tiny...@gmail.com>

--
Feng
Internet Innovator

Feng Jing

unread,

Nov 9, 2009, 6:24:54 AM11/9/09

to re...@googlegroups.com

不好意思，我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看，最大的一个竞争优势就是对网页的质量有更加客观的评价，而这个评价很大程度是来自于link analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候，不能很好的评价信息质量的原因。

2009/11/9 Tinyfool <tiny...@gmail.com>

--
Feng
Internet Innovator

Tinyfool

unread,

Nov 9, 2009, 6:37:37 AM11/9/09

to re...@googlegroups.com

我说的其实是经典的pr，我的意思是说核心的评价体系，如相关度，pagerank这类，必须是那种所有页面都具有的特征。相关度呢，紧密跟内容相关，主题相关。pagerank呢，紧密和结构相关，跟主题无关。拿topic sensitive page-rank来说，我打听说就觉得是好东西，但是他的不足很明显，当用户的搜索主题不明显的时候，网页主题不明显的时候，或者无法归纳的时候，它可能就会变成一个无意义的参数。也就是说，在用户搜索主题和网页主题明显的时候，他的作用可以让搜索效果提高一个等级，达到惊人的好。但是当不适应的时候，他可能就毫无用处。

这样的参数意义重大，在于如果全文检索领域没有出现新的这样的参数，我就可以说这个领域是没有大的突破的。

2009/11/9 Feng Jing <scene...@gmail.com>

Feng Jing

unread,

Nov 9, 2009, 6:52:59 AM11/9/09

to re...@googlegroups.com

我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话，是可以和PR结合一下的（又涉及融合了）。
我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身（这个算法是公开的，其他SE也都可以实现的，而且我知道有些确实实现和使用了），除了relevance的处理以外，在quality方面有多年的各种“微小”细节的积累。这些看似“微小”的细节，往往是决定性的。我同意你关于market share影响效果的观点。有了更多的数据，就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。

BTW: 不好意思，本来是讨论推荐算法的，被我带跑题了:-(
Tiny：接下来的讨论咱们单独回给对方吧:-)

2009/11/9 Tinyfool <tiny...@gmail.com>

--
Feng
Internet Innovator

谷文栋

unread,

Nov 9, 2009, 7:39:35 AM11/9/09

to re...@googlegroups.com

这个帖子讨论的很热烈啊，我来插几句我所知道的，哈哈。

Google 自己说的，目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
PR 在 Google 的质量评价体系里面，相对以前的重要性已经被大幅度降低了，据谣传权重不超过 20% 了。
Google 的 SEO 之所以众，自然是因为它的市场份额大。但有一点是值得注意的，Google 对 SEO 是开放的，他有一整套可供参考的 SEO 准则。SEO 并不都是恶意的，你遵照 Google 给出的 SEO 准则去做，就适应了他的算法，在他的结果里的质量就高。并且，大多数愿意在 SEO 投入精力，并且遵守 Google 规则的网站，都是质量不错的。这样，就形成了一个正循环的生态系统。当然了，对待不守规矩的捣乱分子，Google 也是不留情的。
Google 最后的融合公式，是靠他们的几个超级大牛们 Peter Norvig 手工推倒出来的。Peter Norvig 基本上可以算是 Machine Learning 领域的鼻祖，他们都不信任 ML，让我非常地 faint。
Google 说了，全世界真正懂 Search 的工程师不超过 200 个，我们显然都不是。因此无所谓对错，大家共享交流 idea 就好了。

2009/11/9 Feng Jing <scene...@gmail.com>

Feng Jing

unread,

Nov 9, 2009, 7:45:39 AM11/9/09

to re...@googlegroups.com

4. 这个比较牛，体现了google的竞争壁垒呀，哈哈。

--
Feng
Internet Innovator

谷文栋

unread,

Nov 9, 2009, 7:45:25 AM11/9/09

to re...@googlegroups.com

还有一点，Google 有一个很大的 team 在人工评价搜索结果的质量。
http://www.mauriziopetrone.com/blog/wp-content/uploads/quality-rater-guidelines-2007.pdf

Feng Jing

unread,

Nov 9, 2009, 7:48:09 AM11/9/09

to re...@googlegroups.com

相信百度有一个更大的team:-)。至少要多一些人出来解决中国政府的特定需求:-)

--
Feng
Internet Innovator

xlvector

unread,

Nov 9, 2009, 7:49:48 AM11/9/09

to Resys

本来是想问问在推荐系统中多特征融合问题的，嘿嘿。

其实我的想法是如何把特征融合做到个性化，也就是说google的融合还是global的（当然也可能他个性化了，那我就孤陋寡闻了）

On Nov 9, 8:39 pm, 谷文栋 <wendell...@gmail.com> wrote:
> 这个帖子讨论的很热烈啊，我来插几句我所知道的，哈哈。
>
> 1. Google 自己说的，目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> 2. PR 在 Google 的质量评价体系里面，相对以前的重要性已经被大幅度降低了，据谣传权重不超过 20% 了。
> 3. Google 的 SEO 之所以众，自然是因为它的市场份额大。但有一点是值得注意的，Google 对 SEO 是开放的，他有一整套可供参考的

> SEO 准则。SEO 并不都是恶意的，你遵照 Google 给出的 SEO 准则去做，就适应了他的算法，在他的结果里的质量就高。并且，大多数愿意在
> SEO 投入精力，并且遵守 Google 规则的网站，都是质量不错的。这样，就形成了一个正循环的生态系统。当然了，对待不守规矩的捣乱分子，Google
> 也是不留情的。

> 4. Google 最后的融合公式，是靠他们的几个超级大牛们 Peter
> Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是

> Machine Learning 领域的鼻祖，他们都不信任 ML，让我非常地 faint。

> 5. Google 说了，全世界真正懂 Search 的工程师不超过 200 个，我们显然都不是。因此无所谓对错，大家共享交流 idea 就好了。
>
> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> > 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话，是可以和PR结合一下的（又涉及融合了）。
> > 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身（这个算法是公开的，其他SE也都可以实现的，而且我知道有些确实实现和使用了），除了relevance的处理以外，在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节，往往是决定性的。我同意你关于market
> > share影响效果的观点。有了更多的数据，就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> > BTW: 不好意思，本来是讨论推荐算法的，被我带跑题了:-(
> > Tiny：接下来的讨论咱们单独回给对方吧:-)
>

> > 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >> 我说的其实是经典的pr，我的意思是说核心的评价体系，如相关度，pagerank这类，必须是那种所有页面都具有的特征。相关度呢，紧密跟内容相关，主题相关。pagerank呢，紧密和结构相关，跟主题无关。拿topic
> >> sensitive
> >> page-rank来说，我打听说就觉得是好东西，但是他的不足很明显，当用户的搜索主题不明显的时候，网页主题不明显的时候，或者无法归纳的时候，它可能就会变成一个无意义的参数。也就是说，在用户搜索主题和网页主题明显的时候，他的作用可以让搜索效果提高一个等级，达到惊人的好。但是当不适应的时候，他可能就毫无用处。
>
> >> 这样的参数意义重大，在于如果全文检索领域没有出现新的这样的参数，我就可以说这个领域是没有大的突破的。

> >> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>> 不好意思，我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> >>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看，最大的一个竞争优势就是对网页的质量有更加客观的评价，而这个评价很大程度是来自于link
> >>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候，不能很好的评价信息质量的原因。
>

> >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >>>> google的结果并不是在每个结果上都完美无缺的，事实上，人人都可以发现无数的反例，在某个搜索上面yahoo的结果，或者微软的结果比google要好得多。但是为什么一开始，大家都觉得google的最好呢？这就是因为，yahoo和微软也许用了很多好的特征，而google有一个特征pagerank是全局性的，它也许不是每个点都最优的，但是它可以保证几乎所有的结果都不至于太差。
>
> >>>> 比较质量的时候，很多人喜欢用最好的去比较，这固然没错。但是值得注意的是，很多时候，虽然大家选择你是因为你有闪光点，但是离开你不一定是因为别人有什么比你多的闪光点（这就是路径依赖，换路径的好处不足够大的时候，用户不会普通选择更换路径的），一个果断的离开你的原因往往是你有缺点，用户无法绕过的问题等等（比如虽然大多数搜索结果都很好，但是某些重要的搜索就是搜不出来对的东西，比如对学生搜论文搜不好等等）。
>
> >>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西，有亮点，比没有缺点重要多了。也就是说，如果时不时有几个推荐，击中了用户脆弱的心灵，哪怕其他的一些推荐完全驴唇不对马嘴，用户还是会觉得跟推荐系统心有灵犀（当然有些具体情况要再说，这里只是泛泛而谈）。而搜索，在搜索大众内容的时候，用户其实是相当没有评价能力的，因为几家的结果往往大同小异（这就是很多我们心目中的垃圾，盲测的结果很可能不见得比google差）。用户往往只有在搜索某些词的时候，一个引擎结果丰富，另外一个完全没有结果，或者完全不知所云的时候，才会展现出雪亮的眼睛。
>
> >>>> seo
> >>>> spam的防止，Google无疑是做得最多和最好的。原因实际上更重要的是在于，第一，google市场份额一直很大，seo一般喜欢做Google的。第二，pagerank是公开的，人人都知道这个东西的存在，而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。其他的搜索引擎的核心评分机制外界往往不了解，无法验证。你可以看遍所有的seo文章，可以发现其他所有的引擎的seo一直没有系统可重复的方法。而google从一开始到现在，seo的核心永远是链接。
>

> >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>> topic sensitive page-ran

> >>>>> 那只是叫pagerank而已，跟pagerank本质上不是一个东西。特征哪里都有，甚至文章长短，图片颜色都有可能成为特征。pagerank的重要性来自于它的适用尺度，和主题无关性。虽然现在有无数的新的技术特征加进去，但是本质没有改变就在于此。topic
> >>>>> sensitive page-rank当然很重要，其他几百个特征也很重要，但是pagerank是决定性的。
>
> >>>>> 就像经济学里面有无数的指标，但是你绕不过价格，除非你不是一个真正的市场，扭曲了价格。
>

> >>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域，XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写了篇Re的文章，也不会因为她的博客本身的领域无关的PR比较高，而排在前面。这方面，有一篇经典的论文：topic
> >>>>>> sensitive
> >>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司，这家公司在还没有任何产品的时候，google就主动的找上了门，把它给收购（灭）了。所以Google有没有用上相关的技术也很难说。
>

> >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >>>>>>> google的特征是不可能少的，很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于，pagerank是一个跟主题无关的特征，它和相关度的结合是完美的。
>

> >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>>>>>> 这个问题很有意思，也很重要。类比搜索，网页也有很多的特征，anchor, title,
> >>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征，而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工作的是一个人工智能领域比较牛的researcher。在他的工作之前，MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说，这样的手动方式的费时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)
>

> >>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>

>
> >>>>>>>>> 实际的推荐系统往往能获得很多特征，除了user-item矩阵外，还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。
>
> >>>>>>>>> 我目前在做这方面的工作，有兴趣的可以一起讨论一下，获得灵感。
>
> >>>>>>>>> 我对这个问题目前的了解是，比如有了user
> >>>>>>>>> profile后，比如我们知道用户的年龄，性别。我们会假设同样年龄层的人喜好相同，同样职业的喜好相
> >>>>>>>>> 同。这样的假设似乎是和数据集相关的，比如有些数据集中，同年龄的人喜好确实是相似的，但有些数据集中不是。
>
> >>>>>>>> --
> >>>>>>>> Feng
> >>>>>>>> Internet Innovator
>
> >>>>>>> --
> >>>>>>> Tinyfool的开发日记http://www.tinydust.net/dev/

> >>>>>>> 代码中国网http://www.codechina.org

> >>>>>>> myTwitter:http://twitter.com/tinyfool
>
> >>>>>> --
> >>>>>> Feng
> >>>>>> Internet Innovator
>
> >>>>> --
> >>>>> Tinyfool的开发日记http://www.tinydust.net/dev/
> >>>>> 代码中国网
>

> ...
>
> read more >>

Tinyfool

unread,

Nov 9, 2009, 7:53:46 AM11/9/09

to re...@googlegroups.com

1、虽然包括google自己的人在内，都在说pagerank在下降，我还是不相信，原因可以看前面的讨论，总结起来，就是在全局尺度上，没有单一可以抗衡的标准。或者把话反过来说，即时其他的特征的分数再高，他们总有适用范围，在他们适用范围外，pagerank还是最强的。

2、一般人都不乐意相信google防止作弊没有人工调整，我是相信的。其一是在这个尺度下，人工调整会在带来有限结果改善的同时，破坏更多的搜索结果。以我们给客户做的站内搜索为例，每次为了满足客户一个特定需求去做出的调整，都会带来其他大量结果效果的破坏，在Google的尺度上就更加是了。其二每次google算法更改后，很快seo团体都会很快的产生一些对策，一些行之有效的方法会广泛流传，靠人工去黑白名单是很难枚举的。但是他们的对策，可以在google的算法更新后，一次性的解决。所以，它有大量的人工评价并不稀奇，但是调整是无法这么做的。

xlvector

unread,

Nov 9, 2009, 7:56:13 AM11/9/09

to Resys

google应该是不会用人工调整，因为他的数据量太大了。他们完全可以利用日志定一套指标，然后反馈。

On Nov 9, 8:53 pm, Tinyfool <tinyf...@gmail.com> wrote:
> 1、虽然包括google自己的人在内，都在说pagerank在下降，我还是不相信，原因可以看前面的讨论，总结起来，就是在全局尺度上，没有单一可以抗衡的标准。或者把话反过来说，即时其他的特征的分数再高，他们总有适用范围，在他们适用范围外，pagerank还是最强的。
> 2、一般人都不乐意相信google防止作弊没有人工调整，我是相信的。其一是在这个尺度下，人工调整会在带来有限结果改善的同时，破坏更多的搜索结果。以我们给客户做的站内搜索为例，每次为了满足客户一个特定需求去做出的调整，都会带来其他大量结果效果的破坏，在Google的尺度上就更加是了。其二每次google算法更改后，很快seo团体都会很快的产生一些对策，一些行之有效的方法会广泛流传，靠人工去黑白名单是很难枚举的。但是他们的对策，可以在google的算法更新后，一次性的解决。所以，它有大量的人工评价并不稀奇，但是调整是无法这么做的。
>

> 2009/11/9 谷文栋 <wendell...@gmail.com>

>
> > 还有一点，Google 有一个很大的 team 在人工评价搜索结果的质量。
>

> >http://www.mauriziopetrone.com/blog/wp-content/uploads/quality-rater-...
>
> > 2009/11/9 谷文栋 <wendell...@gmail.com>
>
> >> 这个帖子讨论的很热烈啊，我来插几句我所知道的，哈哈。
>
> >> 1. Google 自己说的，目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> >> 2. PR 在 Google 的质量评价体系里面，相对以前的重要性已经被大幅度降低了，据谣传权重不超过 20% 了。
> >> 3. Google 的 SEO 之所以众，自然是因为它的市场份额大。但有一点是值得注意的，Google 对 SEO

> >> 是开放的，他有一整套可供参考的 SEO 准则。SEO 并不都是恶意的，你遵照 Google 给出的 SEO
> >> 准则去做，就适应了他的算法，在他的结果里的质量就高。并且，大多数愿意在 SEO 投入精力，并且遵守 Google
> >> 规则的网站，都是质量不错的。这样，就形成了一个正循环的生态系统。当然了，对待不守规矩的捣乱分子，Google 也是不留情的。

> >> 4. Google 最后的融合公式，是靠他们的几个超级大牛们 Peter Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是 Machine Learning 领域的鼻祖，他们都不信任 ML，让我非常地 faint。
> >> 5. Google 说了，全世界真正懂 Search 的工程师不超过 200 个，我们显然都不是。因此无所谓对错，大家共享交流 idea
> >> 就好了。
>
> >> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>> 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话，是可以和PR结合一下的（又涉及融合了）。
> >>> 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身（这个算法是公开的，其他SE也都可以实现的，而且我知道有些确实实现和使用了），除了relevance的处理以外，在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节，往往是决定性的。我同意你关于market
> >>> share影响效果的观点。有了更多的数据，就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> >>> BTW: 不好意思，本来是讨论推荐算法的，被我带跑题了:-(
> >>> Tiny：接下来的讨论咱们单独回给对方吧:-)
>

> >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >>>> 我说的其实是经典的pr，我的意思是说核心的评价体系，如相关度，pagerank这类，必须是那种所有页面都具有的特征。相关度呢，紧密跟内容相关，主题相关。pagerank呢，紧密和结构相关，跟主题无关。拿topic
> >>>> sensitive
> >>>> page-rank来说，我打听说就觉得是好东西，但是他的不足很明显，当用户的搜索主题不明显的时候，网页主题不明显的时候，或者无法归纳的时候，它可能就会变成一个无意义的参数。也就是说，在用户搜索主题和网页主题明显的时候，他的作用可以让搜索效果提高一个等级，达到惊人的好。但是当不适应的时候，他可能就毫无用处。
>
> >>>> 这样的参数意义重大，在于如果全文检索领域没有出现新的这样的参数，我就可以说这个领域是没有大的突破的。

> >>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>>>> 不好意思，我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> >>>>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看，最大的一个竞争优势就是对网页的质量有更加客观的评价，而这个评价很大程度是来自于link
> >>>>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候，不能很好的评价信息质量的原因。
>

> >>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >>>>>> google的结果并不是在每个结果上都完美无缺的，事实上，人人都可以发现无数的反例，在某个搜索上面yahoo的结果，或者微软的结果比google要好得多。但是为什么一开始，大家都觉得google的最好呢？这就是因为，yahoo和微软也许用了很多好的特征，而google有一个特征pagerank是全局性的，它也许不是每个点都最优的，但是它可以保证几乎所有的结果都不至于太差。
>
> >>>>>> 比较质量的时候，很多人喜欢用最好的去比较，这固然没错。但是值得注意的是，很多时候，虽然大家选择你是因为你有闪光点，但是离开你不一定是因为别人有什么比你多的闪光点（这就是路径依赖，换路径的好处不足够大的时候，用户不会普通选择更换路径的），一个果断的离开你的原因往往是你有缺点，用户无法绕过的问题等等（比如虽然大多数搜索结果都很好，但是某些重要的搜索就是搜不出来对的东西，比如对学生搜论文搜不好等等）。
>
> >>>>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西，有亮点，比没有缺点重要多了。也就是说，如果时不时有几个推荐，击中了用户脆弱的心灵，哪怕其他的一些推荐完全驴唇不对马嘴，用户还是会觉得跟推荐系统心有灵犀（当然有些具体情况要再说，这里只是泛泛而谈）。而搜索，在搜索大众内容的时候，用户其实是相当没有评价能力的，因为几家的结果往往大同小异（这就是很多我们心目中的垃圾，盲测的结果很可能不见得比google差）。用户往往只有在搜索某些词的时候，一个引擎结果丰富，另外一个完全没有结果，或者完全不知所云的时候，才会展现出雪亮的眼睛。
>
> >>>>>> seo
> >>>>>> spam的防止，Google无疑是做得最多和最好的。原因实际上更重要的是在于，第一，google市场份额一直很大，seo一般喜欢做Google的。第二，pagerank是公开的，人人都知道这个东西的存在，而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。其他的搜索引擎的核心评分机制外界往往不了解，无法验证。你可以看遍所有的seo文章，可以发现其他所有的引擎的seo一直没有系统可重复的方法。而google从一开始到现在，seo的核心永远是链接。
>

> >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>>> topic sensitive page-ran

> >>>>>>> 那只是叫pagerank而已，跟pagerank本质上不是一个东西。特征哪里都有，甚至文章长短，图片颜色都有可能成为特征。pagerank的重要性来自于它的适用尺度，和主题无关性。虽然现在有无数的新的技术特征加进去，但是本质没有改变就在于此。topic
> >>>>>>> sensitive page-rank当然很重要，其他几百个特征也很重要，但是pagerank是决定性的。
>
> >>>>>>> 就像经济学里面有无数的指标，但是你绕不过价格，除非你不是一个真正的市场，扭曲了价格。
>

> >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>>>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域，XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写了篇Re的文章，也不会因为她的博客本身的领域无关的PR比较高，而排在前面。这方面，有一篇经典的论文：topic
> >>>>>>>> sensitive
> >>>>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司，这家公司在还没有任何产品的时候，google就主动的找上了门，把它给收购（灭）了。所以Google有没有用上相关的技术也很难说。
>

> >>>>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >>>>>>>>> google的特征是不可能少的，很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于，pagerank是一个跟主题无关的特征，它和相关度的结合是完美的。
>

> >>>>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>>>>>>>> 这个问题很有意思，也很重要。类比搜索，网页也有很多的特征，anchor, title,
>

> ...
>
> read more >>

Tinyfool

unread,

Nov 9, 2009, 7:56:55 AM11/9/09

to re...@googlegroups.com

我觉得如果你把一个搜索的相关度，看作个性化信息，把pagerank，以及其他等等特征当作全局的信息。那么相关度和其他信息的融合，其实跟个性化的融合就是一个问题了。

2009/11/9 xlvector <xlve...@gmail.com>

xlvector

unread,

Nov 9, 2009, 7:58:34 AM11/9/09

to Resys

我主要是想讨论一下
Toward the Next Generation of Recommender
Systems: A Survey of the State-of-the-Art and
Possible Extensions

这篇文章中Section 3.3中的问题的研究现状，有没有人了解

像这个帖子就比较适合用Wave来讨论了，哈哈

On Nov 9, 8:45 pm, 谷文栋 <wendell...@gmail.com> wrote:
> 还有一点，Google 有一个很大的 team 在人工评价搜索结果的质量。http://www.mauriziopetrone.com/blog/wp-content/uploads/quality-rater-...

>
> 2009/11/9 谷文栋 <wendell...@gmail.com>
>
> > 这个帖子讨论的很热烈啊，我来插几句我所知道的，哈哈。
>

> > 1. Google 自己说的，目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> > 2. PR 在 Google 的质量评价体系里面，相对以前的重要性已经被大幅度降低了，据谣传权重不超过 20% 了。
> > 3. Google 的 SEO 之所以众，自然是因为它的市场份额大。但有一点是值得注意的，Google 对 SEO

> > 是开放的，他有一整套可供参考的 SEO 准则。SEO 并不都是恶意的，你遵照 Google 给出的 SEO
> > 准则去做，就适应了他的算法，在他的结果里的质量就高。并且，大多数愿意在 SEO 投入精力，并且遵守 Google
> > 规则的网站，都是质量不错的。这样，就形成了一个正循环的生态系统。当然了，对待不守规矩的捣乱分子，Google 也是不留情的。

> > 4. Google 最后的融合公式，是靠他们的几个超级大牛们 Peter Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是 Machine Learning 领域的鼻祖，他们都不信任 ML，让我非常地 faint。
> > 5. Google 说了，全世界真正懂 Search 的工程师不超过 200 个，我们显然都不是。因此无所谓对错，大家共享交流 idea
> > 就好了。
>
> > 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >> 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话，是可以和PR结合一下的（又涉及融合了）。
> >> 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身（这个算法是公开的，其他SE也都可以实现的，而且我知道有些确实实现和使用了），除了relevance的处理以外，在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节，往往是决定性的。我同意你关于market
> >> share影响效果的观点。有了更多的数据，就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> >> BTW: 不好意思，本来是讨论推荐算法的，被我带跑题了:-(
> >> Tiny：接下来的讨论咱们单独回给对方吧:-)
>

> >> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >>> 我说的其实是经典的pr，我的意思是说核心的评价体系，如相关度，pagerank这类，必须是那种所有页面都具有的特征。相关度呢，紧密跟内容相关，主题相关。pagerank呢，紧密和结构相关，跟主题无关。拿topic
> >>> sensitive
> >>> page-rank来说，我打听说就觉得是好东西，但是他的不足很明显，当用户的搜索主题不明显的时候，网页主题不明显的时候，或者无法归纳的时候，它可能就会变成一个无意义的参数。也就是说，在用户搜索主题和网页主题明显的时候，他的作用可以让搜索效果提高一个等级，达到惊人的好。但是当不适应的时候，他可能就毫无用处。
>
> >>> 这样的参数意义重大，在于如果全文检索领域没有出现新的这样的参数，我就可以说这个领域是没有大的突破的。

> >>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>>> 不好意思，我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> >>>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看，最大的一个竞争优势就是对网页的质量有更加客观的评价，而这个评价很大程度是来自于link
> >>>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候，不能很好的评价信息质量的原因。
>

> >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >>>>> google的结果并不是在每个结果上都完美无缺的，事实上，人人都可以发现无数的反例，在某个搜索上面yahoo的结果，或者微软的结果比google要好得多。但是为什么一开始，大家都觉得google的最好呢？这就是因为，yahoo和微软也许用了很多好的特征，而google有一个特征pagerank是全局性的，它也许不是每个点都最优的，但是它可以保证几乎所有的结果都不至于太差。
>
> >>>>> 比较质量的时候，很多人喜欢用最好的去比较，这固然没错。但是值得注意的是，很多时候，虽然大家选择你是因为你有闪光点，但是离开你不一定是因为别人有什么比你多的闪光点（这就是路径依赖，换路径的好处不足够大的时候，用户不会普通选择更换路径的），一个果断的离开你的原因往往是你有缺点，用户无法绕过的问题等等（比如虽然大多数搜索结果都很好，但是某些重要的搜索就是搜不出来对的东西，比如对学生搜论文搜不好等等）。
>
> >>>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西，有亮点，比没有缺点重要多了。也就是说，如果时不时有几个推荐，击中了用户脆弱的心灵，哪怕其他的一些推荐完全驴唇不对马嘴，用户还是会觉得跟推荐系统心有灵犀（当然有些具体情况要再说，这里只是泛泛而谈）。而搜索，在搜索大众内容的时候，用户其实是相当没有评价能力的，因为几家的结果往往大同小异（这就是很多我们心目中的垃圾，盲测的结果很可能不见得比google差）。用户往往只有在搜索某些词的时候，一个引擎结果丰富，另外一个完全没有结果，或者完全不知所云的时候，才会展现出雪亮的眼睛。
>
> >>>>> seo
> >>>>> spam的防止，Google无疑是做得最多和最好的。原因实际上更重要的是在于，第一，google市场份额一直很大，seo一般喜欢做Google的。第二，pagerank是公开的，人人都知道这个东西的存在，而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。其他的搜索引擎的核心评分机制外界往往不了解，无法验证。你可以看遍所有的seo文章，可以发现其他所有的引擎的seo一直没有系统可重复的方法。而google从一开始到现在，seo的核心永远是链接。
>

> >>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>> topic sensitive page-ran

> >>>>>> 那只是叫pagerank而已，跟pagerank本质上不是一个东西。特征哪里都有，甚至文章长短，图片颜色都有可能成为特征。pagerank的重要性来自于它的适用尺度，和主题无关性。虽然现在有无数的新的技术特征加进去，但是本质没有改变就在于此。topic
> >>>>>> sensitive page-rank当然很重要，其他几百个特征也很重要，但是pagerank是决定性的。
>
> >>>>>> 就像经济学里面有无数的指标，但是你绕不过价格，除非你不是一个真正的市场，扭曲了价格。
>

> >>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域，XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写了篇Re的文章，也不会因为她的博客本身的领域无关的PR比较高，而排在前面。这方面，有一篇经典的论文：topic
> >>>>>>> sensitive
> >>>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司，这家公司在还没有任何产品的时候，google就主动的找上了门，把它给收购（灭）了。所以Google有没有用上相关的技术也很难说。
>

> >>>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>
> >>>>>>>> google的特征是不可能少的，很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于，pagerank是一个跟主题无关的特征，它和相关度的结合是完美的。
>

> >>>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
> >>>>>>>> 这个问题很有意思，也很重要。类比搜索，网页也有很多的特征，anchor, title,
> >>>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征，而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工作的是一个人工智能领域比较牛的researcher。在他的工作之前，MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说，这样的手动方式的费时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)
>

> >>>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>

>
> >>>>>>>>>> 实际的推荐系统往往能获得很多特征，除了user-item矩阵外，还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。
>
> >>>>>>>>>> 我目前在做这方面的工作，有兴趣的可以一起讨论一下，获得灵感。
>
> >>>>>>>>>> 我对这个问题目前的了解是，比如有了user
> >>>>>>>>>> profile后，比如我们知道用户的年龄，性别。我们会假设同样年龄层的人喜好相同，同样职业的喜好相
> >>>>>>>>>> 同。这样的假设似乎是和数据集相关的，比如有些数据集中，同年龄的人喜好确实是相似的，但有些数据集中不是。
>
> >>>>>>>>> --
> >>>>>>>>> Feng
> >>>>>>>>> Internet Innovator
>
> >>>>>>>> --
>

> ...
>
> read more >>

xlvector

unread,

Nov 9, 2009, 7:59:48 AM11/9/09

to Resys

是，从数学上看基本上ML就没几个问题，我只是具体到推荐系统里。根本上是没有区别的，不过面子上还是有区别的

On Nov 9, 8:56 pm, Tinyfool <tinyf...@gmail.com> wrote:
> 我觉得如果你把一个搜索的相关度，看作个性化信息，把pagerank，以及其他等等特征当作全局的信息。那么相关度和其他信息的融合，其实跟个性化的融合就是一个问题了。
>

> 2009/11/9 xlvector <xlvec...@gmail.com>

> ...
>
> read more >>

谷文栋

unread,

Nov 9, 2009, 8:08:31 AM11/9/09

to re...@googlegroups.com

看来有必要温故而知新一下这个paper了，老早前读的，整个忘了一干净。

2009/11/9 xlvector <xlve...@gmail.com>

xlvector

unread,

Nov 9, 2009, 8:10:40 AM11/9/09

to Resys

这个算是个指方向的paper吧

On Nov 9, 9:08 pm, 谷文栋 <wendell...@gmail.com> wrote:
> 看来有必要温故而知新一下这个paper了，老早前读的，整个忘了一干净。
>

> 2009/11/9 xlvector <xlvec...@gmail.com>

> ...
>
> read more >>

raullew

unread,

Nov 9, 2009, 9:07:25 AM11/9/09

to Resys

4。没错。ML通常只能求系数而不能求结构，而对于理解世界来说，有阐述结构的理论才是本质的，求系数只是个计算机运算而已

On Nov 9, 4:39 am, 谷文栋 <wendell...@gmail.com> wrote:
> 这个帖子讨论的很热烈啊，我来插几句我所知道的，哈哈。
>

> 1. Google 自己说的，目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> 2. PR 在 Google 的质量评价体系里面，相对以前的重要性已经被大幅度降低了，据谣传权重不超过 20% 了。
> 3. Google 的 SEO 之所以众，自然是因为它的市场份额大。但有一点是值得注意的，Google 对 SEO 是开放的，他有一整套可供参考的

> SEO 准则。SEO 并不都是恶意的，你遵照 Google 给出的 SEO 准则去做，就适应了他的算法，在他的结果里的质量就高。并且，大多数愿意在
> SEO 投入精力，并且遵守 Google 规则的网站，都是质量不错的。这样，就形成了一个正循环的生态系统。当然了，对待不守规矩的捣乱分子，Google
> 也是不留情的。

> 4. Google 最后的融合公式，是靠他们的几个超级大牛们 Peter
> Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是

> Machine Learning 领域的鼻祖，他们都不信任 ML，让我非常地 faint。

> 5. Google 说了，全世界真正懂 Search 的工程师不超过 200 个，我们显然都不是。因此无所谓对错，大家共享交流 idea 就好了。
>
> 2009/11/9 Feng Jing <scenery...@gmail.com>

>
>
>
> > 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话，是可以和PR结合一下的（又涉及融合了）。

> > 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身（这个算法是公开的，其他SE也都可以实现的，而且我知道有些确实实现和使用了）-，除了relevance的处理以外，在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节，往往是决定性的。我同意你关于marke-t

> > share影响效果的观点。有了更多的数据，就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> > BTW: 不好意思，本来是讨论推荐算法的，被我带跑题了:-(
> > Tiny：接下来的讨论咱们单独回给对方吧:-)
>

> > 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >> 我说的其实是经典的pr，我的意思是说核心的评价体系，如相关度，pagerank这类，必须是那种所有页面都具有的特征。相关度呢，紧密跟内容相关，主题相关-。pagerank呢，紧密和结构相关，跟主题无关。拿topic
> >> sensitive
> >> page-rank来说，我打听说就觉得是好东西，但是他的不足很明显，当用户的搜索主题不明显的时候，网页主题不明显的时候，或者无法归纳的时候，它可能就会-变成一个无意义的参数。也就是说，在用户搜索主题和网页主题明显的时候，他的作用可以让搜索效果提高一个等级，达到惊人的好。但是当不适应的时候，他可能就毫无-用处。
>
> >> 这样的参数意义重大，在于如果全文检索领域没有出现新的这样的参数，我就可以说这个领域是没有大的突破的。
> >> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>> 不好意思，我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。
> >>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看，最大的一个竞争优势就是对网页的质量有更加客观的评价，而这个评价很大程度是来自-于link
> >>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候，不能很好的评价信息质量的原因。
>
> >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>> google的结果并不是在每个结果上都完美无缺的，事实上，人人都可以发现无数的反例，在某个搜索上面yahoo的结果，或者微软的结果比google要好得-多。但是为什么一开始，大家都觉得google的最好呢？这就是因为，yahoo和微软也许用了很多好的特征，而google有一个特征pagerank是全局-性的，它也许不是每个点都最优的，但是它可以保证几乎所有的结果都不至于太差。
>
> >>>> 比较质量的时候，很多人喜欢用最好的去比较，这固然没错。但是值得注意的是，很多时候，虽然大家选择你是因为你有闪光点，但是离开你不一定是因为别人有什么比你-多的闪光点（这就是路径依赖，换路径的好处不足够大的时候，用户不会普通选择更换路径的），一个果断的离开你的原因往往是你有缺点，用户无法绕过的问题等等（比-如虽然大多数搜索结果都很好，但是某些重要的搜索就是搜不出来对的东西，比如对学生搜论文搜不好等等）。
>
> >>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西，有亮点，比没有缺点重要多了。也就是说，如果时不时有几个推荐，击中了用户脆弱的心灵，哪怕其-他的一些推荐完全驴唇不对马嘴，用户还是会觉得跟推荐系统心有灵犀（当然有些具体情况要再说，这里只是泛泛而谈）。而搜索，在搜索大众内容的时候，用户其实是相-当没有评价能力的，因为几家的结果往往大同小异（这就是很多我们心目中的垃圾，盲测的结果很可能不见得比google差）。用户往往只有在搜索某些词的时候，一-个引擎结果丰富，另外一个完全没有结果，或者完全不知所云的时候，才会展现出雪亮的眼睛。
>
> >>>> seo
> >>>> spam的防止，Google无疑是做得最多和最好的。原因实际上更重要的是在于，第一，google市场份额一直很大，seo一般喜欢做Google的。第二-，pagerank是公开的，人人都知道这个东西的存在，而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。-其他的搜索引擎的核心评分机制外界往往不了解，无法验证。你可以看遍所有的seo文章，可以发现其他所有的引擎的seo一直没有系统可重复的方法。而googl-e从一开始到现在，seo的核心永远是链接。

>
> >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>> topic sensitive page-ran

> >>>>> 那只是叫pagerank而已，跟pagerank本质上不是一个东西。特征哪里都有，甚至文章长短，图片颜色都有可能成为特征。pagerank的重要性来自-于它的适用尺度，和主题无关性。虽然现在有无数的新的技术特征加进去，但是本质没有改变就在于此。topic

> >>>>> sensitive page-rank当然很重要，其他几百个特征也很重要，但是pagerank是决定性的。
>
> >>>>> 就像经济学里面有无数的指标，但是你绕不过价格，除非你不是一个真正的市场，扭曲了价格。
>

> >>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> >>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域，XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写-了篇Re的文章，也不会因为她的博客本身的领域无关的PR比较高，而排在前面。这方面，有一篇经典的论文：topic
> >>>>>> sensitive
> >>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司，这家公司在还没有任何产品的时候，google就主动的找上了门，把它给收购-（灭）了。所以Google有没有用上相关的技术也很难说。
>
> >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> >>>>>>> google的特征是不可能少的，很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于，pagerank是-一个跟主题无关的特征，它和相关度的结合是完美的。
>
> >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>

> >>>>>>> 这个问题很有意思，也很重要。类比搜索，网页也有很多的特征，anchor, title,

> >>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征，而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工-作的是一个人工智能领域比较牛的researcher。在他的工作之前，MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说，这样的手动方式的费-时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)
>
> >>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>

>
> >>>>>>>>> 实际的推荐系统往往能获得很多特征，除了user-item矩阵外，还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。
>
> >>>>>>>>> 我目前在做这方面的工作，有兴趣的可以一起讨论一下，获得灵感。
>
> >>>>>>>>> 我对这个问题目前的了解是，比如有了user
> >>>>>>>>> profile后，比如我们知道用户的年龄，性别。我们会假设同样年龄层的人喜好相同，同样职业的喜好相
> >>>>>>>>> 同。这样的假设似乎是和数据集相关的，比如有些数据集中，同年龄的人喜好确实是相似的，但有些数据集中不是。
>
> >>>>>>>> --
> >>>>>>>> Feng
> >>>>>>>> Internet Innovator
>
> >>>>>>> --
> >>>>>>> Tinyfool的开发日记http://www.tinydust.net/dev/

> >>>>>>> 代码中国网http://www.codechina.org

> >>>>>>> myTwitter:http://twitter.com/tinyfool
>
> >>>>>> --
> >>>>>> Feng
> >>>>>> Internet Innovator
>
> >>>>> --

> >>>>> Tinyfool的开发日记http://www.tinydust.net/dev/
> >>>>> 代码中国网
>
> ...
>
> read more >>- Hide quoted text -
>
> - Show quoted text -

xlvector

unread,

Nov 9, 2009, 9:14:22 AM11/9/09

to Resys

结构就是建模吧，建模是科学家干的事情，模型参数是ML的事情，嘿嘿

> ...
>
> read more >>

jie.dellinger

unread,

Nov 9, 2009, 8:55:57 PM11/9/09

to resys

不知你理解的结构是什么意思，是说特征之间存在结构化的信息么？

如淘宝里面商品detail页面一般左边是商品图片，右边是商品名称、价格、描述等，这可以理解为一种网页模板的视觉结构，这种结构化信息也是可以通过ML的方法建模的，比如条件随机场，最大间隔马尔可夫网络等概率图模型，就可以进行结构化预测，这些模型对于我等非数学出身的人来说足够复杂了，算法最后还是在求模型的参数。

就我的理解，结构化的信息直观上讲是很有用的（比如上面的网页对象抽取，人在购物的时候，看到淘宝的商品信息页面，马上就能抽取出图片、名称、价格、评价等对象，结构化的信息是发挥了作用的）。但也得看具体的应用背景，把结构化模型应用到其他不适用的场景，说不定效果还不如baseline的方法。

当然，说到特征信息的使用，结构化模型的确比传统的ML方法（HMM，Naive Bayes）要有先天优势，它对特征不敏感，特征函数随便定义。这样，能不能定义合适的特征函数就取决于你是否对你的应用背景有充分的认知和把握，我觉得之所以结构化模型的实验效果相对于一些baseline方法指标性能提升有限的原因之一就是特征的选取可能不是很优。

再说到推荐系统，当引入了多特征之后，这其中是否存在结构信息？如果存在的话，有哪些？怎么样去定义合适的函数？这些都需要针对具体应用，具体探讨。

最后，引入结构化建模是需要付出算法时间代价的，为了一点点准确率的提升，而牺牲很大的效率划算吗？这两者也需要平衡。

2009-11-10

jie.dellinger

发件人： raullew

发送时间： 2009-11-09 22:07:46

收件人： Resys

抄送：

主题： [resys] Re: 多特征的推荐系统

4。没错。ML通常只能求系数而不能求结构，而对于理解世界来说，有阐述结构的理论才是本质的，求系数只是个计算机运算而已

On Nov 9, 4:39 am, 谷文栋 <wendell...@gmail.com> wrote:

> 这个帖子讨论的很热烈啊，我来插几句我所知道的，哈哈。

>

> 1. Google 自己说的，目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。

> 2. PR 在 Google 的质量评价体系里面，相对以前的重要性已经被大幅度降低了，据谣传权重不超过 20% 了。

> 3. Google 的 SEO 之所以众，自然是因为它的市场份额大。但有一点是值得注意的，Google 对 SEO 是开放的，他有一整套可供参考的

> SEO 准则。SEO 并不都是恶意的，你遵照 Google 给出的 SEO 准则去做，就适应了他的算法，在他的结果里的质量就高。并且，大多数愿意在

> SEO 投入精力，并且遵守 Google 规则的网站，都是质量不错的。这样，就形成了一个正循环的生态系统。当然了，对待不守规矩的捣乱分子，Google

> 也是不留情的。

> 4. Google 最后的融合公式，是靠他们的几个超级大牛们 Peter

> Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是

> Machine Learning 领域的鼻祖，他们都不信任 ML，让我非常地 faint。

> 5. Google 说了，全世界真正懂 Search 的工程师不超过 200 个，我们显然都不是。因此无所谓对错，大家共享交流 idea 就好了。

>

> 2009/11/9 Feng Jing <scenery...@gmail.com>

>

> > 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话，是可以和PR结合一下的（又涉及融合了）。

> > 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身（这个算法是公开的，其他SE也都可以实现的，而且我知道有些确实实现和使用了）-，除了relevance的处理以外，在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节，往往是决定性的。我同意你关于marke-t

> > share影响效果的观点。有了更多的数据，就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。

>

> > BTW: 不好意思，本来是讨论推荐算法的，被我带跑题了:-(

> > Tiny：接下来的讨论咱们单独回给对方吧:-)

>

> > 2009/11/9 Tinyfool <tinyf...@gmail.com>

>

> >> 我说的其实是经典的pr，我的意思是说核心的评价体系，如相关度，pagerank这类，必须是那种所有页面都具有的特征。相关度呢，紧密跟内容相关，主题相关-。pagerank呢，紧密和结构相关，跟主题无关。拿topic

> >> sensitive

> >> page-rank来说，我打听说就觉得是好东西，但是他的不足很明显，当用户的搜索主题不明显的时候，网页主题不明显的时候，或者无法归纳的时候，它可能就会-变成一个无意义的参数。也就是说，在用户搜索主题和网页主题明显的时候，他的作用可以让搜索效果提高一个等级，达到惊人的好。但是当不适应的时候，他可能就毫无-用处。

>

> >> 这样的参数意义重大，在于如果全文检索领域没有出现新的这样的参数，我就可以说这个领域是没有大的突破的。

> >> 2009/11/9 Feng Jing <scenery...@gmail.com>

>

> >>> 不好意思，我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。

> >>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看，最大的一个竞争优势就是对网页的质量有更加客观的评价，而这个评价很大程度是来自-于link

> >>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候，不能很好的评价信息质量的原因。

>

> >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>

> >>>> google的结果并不是在每个结果上都完美无缺的，事实上，人人都可以发现无数的反例，在某个搜索上面yahoo的结果，或者微软的结果比google要好得-多。但是为什么一开始，大家都觉得google的最好呢？这就是因为，yahoo和微软也许用了很多好的特征，而google有一个特征pagerank是全局-性的，它也许不是每个点都最优的，但是它可以保证几乎所有的结果都不至于太差。

>

> >>>> 比较质量的时候，很多人喜欢用最好的去比较，这固然没错。但是值得注意的是，很多时候，虽然大家选择你是因为你有闪光点，但是离开你不一定是因为别人有什么比你-多的闪光点（这就是路径依赖，换路径的好处不足够大的时候，用户不会普通选择更换路径的），一个果断的离开你的原因往往是你有缺点，用户无法绕过的问题等等（比-如虽然大多数搜索结果都很好，但是某些重要的搜索就是搜不出来对的东西，比如对学生搜论文搜不好等等）。

>

> >>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西，有亮点，比没有缺点重要多了。也就是说，如果时不时有几个推荐，击中了用户脆弱的心灵，哪怕其-他的一些推荐完全驴唇不对马嘴，用户还是会觉得跟推荐系统心有灵犀（当然有些具体情况要再说，这里只是泛泛而谈）。而搜索，在搜索大众内容的时候，用户其实是相-当没有评价能力的，因为几家的结果往往大同小异（这就是很多我们心目中的垃圾，盲测的结果很可能不见得比google差）。用户往往只有在搜索某些词的时候，一-个引擎结果丰富，另外一个完全没有结果，或者完全不知所云的时候，才会展现出雪亮的眼睛。

>

> >>>> seo

> >>>> spam的防止，Google无疑是做得最多和最好的。原因实际上更重要的是在于，第一，google市场份额一直很大，seo一般喜欢做Google的。第二-，pagerank是公开的，人人都知道这个东西的存在，而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的。-其他的搜索引擎的核心评分机制外界往往不了解，无法验证。你可以看遍所有的seo文章，可以发现其他所有的引擎的seo一直没有系统可重复的方法。而googl-e从一开始到现在，seo的核心永远是链接。

>

> >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>

> >>>>> topic sensitive page-ran

> >>>>> 那只是叫pagerank而已，跟pagerank本质上不是一个东西。特征哪里都有，甚至文章长短，图片颜色都有可能成为特征。pagerank的重要性来自-于它的适用尺度，和主题无关性。虽然现在有无数的新的技术特征加进去，但是本质没有改变就在于此。topic

> >>>>> sensitive page-rank当然很重要，其他几百个特征也很重要，但是pagerank是决定性的。

>

> >>>>> 就像经济学里面有无数的指标，但是你绕不过价格，除非你不是一个真正的市场，扭曲了价格。

>

> >>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>

> >>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域，XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写-了篇Re的文章，也不会因为她的博客本身的领域无关的PR比较高，而排在前面。这方面，有一篇经典的论文：topic

> >>>>>> sensitive

> >>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司，这家公司在还没有任何产品的时候，google就主动的找上了门，把它给收购-（灭）了。所以Google有没有用上相关的技术也很难说。

>

> >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>

>

> >>>>>>> google的特征是不可能少的，很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于，pagerank是-一个跟主题无关的特征，它和相关度的结合是完美的。

>

> >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>

>

> >>>>>>> 这个问题很有意思，也很重要。类比搜索，网页也有很多的特征，anchor, title,

> >>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征，而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工-作的是一个人工智能领域比较牛的researcher。在他的工作之前，MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说，这样的手动方式的费-时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)

>

> >>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>

>

> >>>>>>>>> 实际的推荐系统往往能获得很多特征，除了user-item矩阵外，还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。

>

> >>>>>>>>> 我目前在做这方面的工作，有兴趣的可以一起讨论一下，获得灵感。

>

> >>>>>>>>> 我对这个问题目前的了解是，比如有了user

> >>>>>>>>> profile后，比如我们知道用户的年龄，性别。我们会假设同样年龄层的人喜好相同，同样职业的喜好相

> >>>>>>>>> 同。这样的假设似乎是和数据集相关的，比如有些数据集中，同年龄的人喜好确实是相似的，但有些数据集中不是。

>

> >>>>>>>> --

> >>>>>>>> Feng

> >>>>>>>> Internet Innovator

>

> >>>>>>> --

> >>>>>>> Tinyfool的开发日记http://www.tinydust.net/dev/

> >>>>>>> 代码中国网http://www.codechina.org

> >>>>>>> myTwitter:http://twitter.com/tinyfool

>

> >>>>>> --

> >>>>>> Feng

> >>>>>> Internet Innovator

>

> >>>>> --

SHAWN

unread,

Dec 21, 2009, 9:57:39 AM12/21/09

to Resys

从头看到尾，没看到有人讨论xlvector最开始的那个问题，一直在说搜索呢。我对xlvector的问题也很感兴趣，多交流。

On 11月9日, 下午10时07分, raullew <raul...@hotmail.com> wrote:
> 4。没错。ML通常只能求系数而不能求结构，而对于理解世界来说，有阐述结构的理论才是本质的，求系数只是个计算机运算而已
>
> On Nov 9, 4:39 am, 谷文栋 <wendell...@gmail.com> wrote:
>
>
>
> > 这个帖子讨论的很热烈啊，我来插几句我所知道的，哈哈。
>
> > 1. Google 自己说的，目前他们自己用的 PageRank 相对原来的经典办法已经有了很多的改动。
> > 2. PR 在 Google 的质量评价体系里面，相对以前的重要性已经被大幅度降低了，据谣传权重不超过 20% 了。
> > 3. Google 的 SEO 之所以众，自然是因为它的市场份额大。但有一点是值得注意的，Google 对 SEO 是开放的，他有一整套可供参考的
> > SEO 准则。SEO 并不都是恶意的，你遵照 Google 给出的 SEO 准则去做，就适应了他的算法，在他的结果里的质量就高。并且，大多数愿意在
> > SEO 投入精力，并且遵守 Google 规则的网站，都是质量不错的。这样，就形成了一个正循环的生态系统。当然了，对待不守规矩的捣乱分子，Google
> > 也是不留情的。
> > 4. Google 最后的融合公式，是靠他们的几个超级大牛们 Peter
> > Norvig<http://www.norvig.com/resume.html>手工推倒出来的。Peter Norvig 基本上可以算是
> > Machine Learning 领域的鼻祖，他们都不信任 ML，让我非常地 faint。
> > 5. Google 说了，全世界真正懂 Search 的工程师不超过 200 个，我们显然都不是。因此无所谓对错，大家共享交流 idea 就好了。
>
> > 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> > > 我同意PR的伟大。简单但是很有效。topic sensitive PR如果真用的话，是可以和PR结合一下的（又涉及融合了）。

> > > 我觉得能让Google在一些情况下比其他SE效果好的原因倒不一定是PR本身（这个算法是公开的，其他SE也都可以实现的，而且我知道有些确实实现和使用了）--，除了relevance的处理以外，在quality方面有多年的各种"微小"细节的积累。这些看似"微小"的细节，往往是决定性的。我同意你关于mark-e-t

> > > share影响效果的观点。有了更多的数据，就可以更好的改善算法。这可能也是百度要比谷歌好的一个原因吧。
>
> > > BTW: 不好意思，本来是讨论推荐算法的，被我带跑题了:-(
> > > Tiny：接下来的讨论咱们单独回给对方吧:-)
>
> > > 2009/11/9 Tinyfool <tinyf...@gmail.com>
>

> > >> 我说的其实是经典的pr，我的意思是说核心的评价体系，如相关度，pagerank这类，必须是那种所有页面都具有的特征。相关度呢，紧密跟内容相关，主题相关--。pagerank呢，紧密和结构相关，跟主题无关。拿topic
> > >> sensitive
> > >> page-rank来说，我打听说就觉得是好东西，但是他的不足很明显，当用户的搜索主题不明显的时候，网页主题不明显的时候，或者无法归纳的时候，它可能就会--变成一个无意义的参数。也就是说，在用户搜索主题和网页主题明显的时候，他的作用可以让搜索效果提高一个等级，达到惊人的好。但是当不适应的时候，他可能就毫-无-用处。

>
> > >> 这样的参数意义重大，在于如果全文检索领域没有出现新的这样的参数，我就可以说这个领域是没有大的突破的。
> > >> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> > >>> 不好意思，我误解你的意思了。我一直以为你说的PR是指那个经典的PR呢。我现在理解你说的其实就是Google对网页质量的评价。

> > >>> 如果是这样的话。我完全同意你的观点。Google相对于其他的搜索引擎来看，最大的一个竞争优势就是对网页的质量有更加客观的评价，而这个评价很大程度是来自--于link

> > >>> analysis的。这也是Eric说他们在面对如tweet这种link比较稀疏的信息的时候，不能很好的评价信息质量的原因。
>
> > >>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>

> > >>>> google的结果并不是在每个结果上都完美无缺的，事实上，人人都可以发现无数的反例，在某个搜索上面yahoo的结果，或者微软的结果比google要好得--多。但是为什么一开始，大家都觉得google的最好呢？这就是因为，yahoo和微软也许用了很多好的特征，而google有一个特征pagerank是全-局-性的，它也许不是每个点都最优的，但是它可以保证几乎所有的结果都不至于太差。
>
> > >>>> 比较质量的时候，很多人喜欢用最好的去比较，这固然没错。但是值得注意的是，很多时候，虽然大家选择你是因为你有闪光点，但是离开你不一定是因为别人有什么比你--多的闪光点（这就是路径依赖，换路径的好处不足够大的时候，用户不会普通选择更换路径的），一个果断的离开你的原因往往是你有缺点，用户无法绕过的问题等等（-比-如虽然大多数搜索结果都很好，但是某些重要的搜索就是搜不出来对的东西，比如对学生搜论文搜不好等等）。
>
> > >>>> 当然在这里推荐系统和搜索是有区别的。推荐系统是锦上添花的东西，有亮点，比没有缺点重要多了。也就是说，如果时不时有几个推荐，击中了用户脆弱的心灵，哪怕其--他的一些推荐完全驴唇不对马嘴，用户还是会觉得跟推荐系统心有灵犀（当然有些具体情况要再说，这里只是泛泛而谈）。而搜索，在搜索大众内容的时候，用户其实是-相-当没有评价能力的，因为几家的结果往往大同小异（这就是很多我们心目中的垃圾，盲测的结果很可能不见得比google差）。用户往往只有在搜索某些词的时候-，一-个引擎结果丰富，另外一个完全没有结果，或者完全不知所云的时候，才会展现出雪亮的眼睛。
>
> > >>>> seo
> > >>>> spam的防止，Google无疑是做得最多和最好的。原因实际上更重要的是在于，第一，google市场份额一直很大，seo一般喜欢做Google的。第二--，pagerank是公开的，人人都知道这个东西的存在，而且还可以通过工具条来验证自己seo的效果。而且这种基于模拟投票行为的算法作弊起来也是最容易的-。-其他的搜索引擎的核心评分机制外界往往不了解，无法验证。你可以看遍所有的seo文章，可以发现其他所有的引擎的seo一直没有系统可重复的方法。而goo-gl-e从一开始到现在，seo的核心永远是链接。

>
> > >>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> > >>>>> topic sensitive page-ran

> > >>>>> 那只是叫pagerank而已，跟pagerank本质上不是一个东西。特征哪里都有，甚至文章长短，图片颜色都有可能成为特征。pagerank的重要性来自--于它的适用尺度，和主题无关性。虽然现在有无数的新的技术特征加进去，但是本质没有改变就在于此。topic

> > >>>>> sensitive page-rank当然很重要，其他几百个特征也很重要，但是pagerank是决定性的。
>
> > >>>>> 就像经济学里面有无数的指标，但是你绕不过价格，除非你不是一个真正的市场，扭曲了价格。
>
> > >>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>

> > >>>>>> 另外和网页主题相关的PR也是有道理的。比如在Recommendation领域，XVector和文栋的博客的PR就应该比老徐的高。这样即使老徐心血来潮写--了篇Re的文章，也不会因为她的博客本身的领域无关的PR比较高，而排在前面。这方面，有一篇经典的论文：topic
> > >>>>>> sensitive
> > >>>>>> page-rank。写这篇论文的stanford的学生一毕业就成立了一家公司，这家公司在还没有任何产品的时候，google就主动的找上了门，把它给收购--（灭）了。所以Google有没有用上相关的技术也很难说。
>
> > >>>>>> 2009/11/9 Tinyfool <tinyf...@gmail.com>
>
> > >>>>>>> google的特征是不可能少的，很久以前google就号称是数百个特征。Google之所以对其他的几家搜索长期有技术优势的原因在于，pagerank是--一个跟主题无关的特征，它和相关度的结合是完美的。

>
> > >>>>>>> 2009/11/9 Feng Jing <scenery...@gmail.com>
>
> > >>>>>>> 这个问题很有意思，也很重要。类比搜索，网页也有很多的特征，anchor, title,

> > >>>>>>>> bm25等等。如何选择和融合特征是非常关键的。据说Yahoo用了很多特征，而Google的特征并不多。MS是用神经网络来学习特征融合的参数的。做这个工--作的是一个人工智能领域比较牛的researcher。在他的工作之前，MS是工程师根据直觉手动调整参数的。对于有几百维特征的系统来说，这样的手动方式的-费-时费力和低效是可以想象的。后来这个哥们用了自动的方式来设定。准确率一下提升了不少。他的Level也跟着涨了不少:-)

>
> > >>>>>>>> 2009/11/9 xlvector <xlvec...@gmail.com>
>
> > >>>>>>>>> 实际的推荐系统往往能获得很多特征，除了user-item矩阵外，还有很多用户特征和item特征。不知道实际系统中是如何融合这些特征的。
>
> > >>>>>>>>> 我目前在做这方面的工作，有兴趣的可以一起讨论一下，获得灵感。
>
> > >>>>>>>>> 我对这个问题目前的了解是，比如有了user
> > >>>>>>>>> profile后，比如我们知道用户的年龄，性别。我们会假设同样年龄层的人喜好相同，同样职业的喜好相
> > >>>>>>>>> 同。这样的假设似乎是和数据集相关的，比如有些数据集中，同年龄的人喜好确实是相似的，但有些数据集中不是。
>
> > >>>>>>>> --
> > >>>>>>>> Feng
> > >>>>>>>> Internet Innovator
>
> > >>>>>>> --
> > >>>>>>> Tinyfool的开发日记http://www.tinydust.net/dev/
> > >>>>>>> 代码中国网http://www.codechina.org
> > >>>>>>> myTwitter:http://twitter.com/tinyfool
>
> > >>>>>> --
> > >>>>>> Feng
>

> ...
>
> 阅读更多 >>- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Reply all

Reply to author

Forward