目前除了TopK和RMSE的这样评测相关性的指标,另外一个比较热门的研究是diversity的问题,也就是多样性。
这是这几年关于多样性研究的论文
http://scholar.google.com/scholar?q=recommender+system+diverstiy&hl=en&btnG=Search
除了多样性,守昆提到的惊喜也是很有启发的。我们知道,流行的东西每个用户基本会看,但用户并不需要你为他推荐热门的东西,因为热门的到处都有,不需要
推荐。用户需要的其实是他喜欢的,但是其他地方不容易找到的东西(比如我在北京,吃面不需要你推荐去哪儿,但是你如果能给我推荐卖黄桥烧饼的地方,我就
很高兴了,所以其实我不需要一个餐饮网站给我推荐谁都知道的餐馆,我需要的是很符合我的兴趣,但我没听说过的,或者很少人知道的,但服务很好的地
方)。
但是,很多指标量化是很困难的,在机器学习里,如果有一个量化的目标函数,肯定可以找到好的算法,但是用户满意度这个东西是很难量化的。
不知道各位对推荐系统的评测有什么看法。我先抛砖引玉了。
* L. McGinty, B. Smyth, On the Role of Diversity in
Conversational Recommender Systems, in: Proc. ICCBR 2003, 2003.
* Cai-Nicolas Ziegler, Sean M. McNee, Joseph A. Konstan, Georg
Lausen, Improving Recommendation Lists Through Topic Diversification,
Proceedings of the 14th International World Wide Web Conference (WWW
'05), May 10-14, 2005, Chiba, Japan. (Thanks to Daniel Haran for
pointing me this one.)
* D. Fleder, K. Hosanagar, Blockbuster culture's next rise or
fall: The effect of recommender systems on sales diversity, in: Proc.
WISE 2006, 2006.
* S. M. McNee, J. Riedl, J. A. Konstan, Being accurate is not
enough: how accuracy metrics have hurt recommender systems, in: Proc.
CHI '06 (2006) 1097 - 1101.
* Zhang, M. and Hurley, N. 2008. Avoiding monotony: improving the
diversity of recommendation lists. In Proceedings of the 2008 ACM
Conference on Recommender Systems (Lausanne, Switzerland, October 23 -
25, 2008). RecSys '08. ACM, New York, NY, 123-130.
* Quoc Le, Alexander Smola, Direct Optimization of Ranking
Measures, published online, 2008. (Thanks Mark Reid.)
On Aug 8, 8:04 pm, xlvector <xlvec...@gmail.com> wrote:
> 前面关于TopK和RMSE的讨论很热烈,大家也各自发表了意见。最后守昆的意见对我很有启发,其实用户需要的的确不是最相关的预测。
>
> 目前除了TopK和RMSE的这样评测相关性的指标,另外一个比较热门的研究是diversity的问题,也就是多样性。
>
> 这是这几年关于多样性研究的论文
>
> http://scholar.google.com/scholar?q=recommender+system+diverstiy&hl=e...
On Aug 8, 11:59 pm, Feng Jing <scenery...@gmail.com> wrote:
> 专业,你不去做研究真是可惜了:-)
>
> 2009/8/8 clickstone <wendell...@gmail.com>
On Aug 9, 12:15 am, Feng Jing <scenery...@gmail.com> wrote:
> 恩,做写灌水paper的研究没什么意思。做能改善人们生活的研究才有价值:-)
>
> 2009/8/9 clickstone <wendell...@gmail.com>
On Aug 9, 10:20 am, Gary Wang <gary.wang1...@gmail.com> wrote:
> 感谢clickstone的分享,确实很专业。多样性的现象我也注意过,不过没有专门思考过这个问题。
>
> 个人认为推荐系统只是信息过滤的重要手段之一,它不能替代其他手段,比如分类导航、热门推荐、搜索等等,用户的需求是因人而已、因时而异,而推荐系统往往只能满足用户的某一种需求。就像搜索引擎在用户不知道内容的特性时也不能完全满足用户寻找信息的需求一样。对于一些用户来说,比如我刚刚知道有方大同这个人和他的歌,还不错,我还是希望能够推荐与他关联度比较大的内容的,而早就知道周杰伦了用户,刚刚听了他的最新专辑,推荐"千里之外"就意义不大了。推荐系统的算法可以影响用户推荐多样性,而产品设计也起到重要的作用,对于不同的人,不同的内容需要有不同的呈现。另外,系统需要用户的点击、购买等数据,这种数据比算法更加重要。也许存在一种极端情况,所有的用户都依赖推荐系统获得信息,那么随着时间的推移,推荐系统也就无法工作了。
>
> 建议也许我们可以在再次活动中,专门做个主题讨论多样性这个问题,这是一个很有实际意义的话题。
>
> 2009/8/9 xlvector <xlvec...@gmail.com>
这个问题可以通过比较简单的方法来解决,比如将同一系列的各本书归并成一个广义的"专辑",在推荐的时候保证一下每个专辑里面最多只出一个item。如
果深入下去,这其实是一个如何制定diversity策略的问题。因为因人而异,不同的用户对推荐的accurate和diversity的需求是不同
的,就算同一个用户,不同时间场合,也会影响到accurate和diversity的取舍。所以制定一个通用的diversity策略可能不是最好的
做法。
一个上线使用的推荐系统大概分作两部分:后端算法+前端UE/UI(用户体验和界面),其中这个UE/UI是要能和用户交互的,能及时收集用户行为信息
的。目前在研究中偏算法更多一些,在实际应用中,也更侧重于找到某个适合的算法,后者感觉研究和使用得都不多。douban上允许用户 "X"掉推荐结
果,可以算作一种显示收集反馈的方法。
要解这个diversity的问题,我感觉从系统的交互性上做文章应该更有效。就是推荐系统要加入更多的交互式元素,来及时收集用户的显示的和隐式的反
馈信息,从而实时的采用不同的推荐策略。比如当前用户还没有明确的购买意图,页面点击的item很分散时,就采用diversity更多的推荐,撒的网
更大一些,以便能帮助用户尽早明确购买目标;当用户目标明确后,就争取尽可能accurate一些,精确的找他他所要的item。不过这样做得实时和细
粒度了,系统的运算量又上去了,这之间又得做平衡了。
On Aug 8, 8:04 pm, xlvector <xlvec...@gmail.com> wrote:
> 前面关于TopK和RMSE的讨论很热烈,大家也各自发表了意见。最后守昆的意见对我很有启发,其实用户需要的的确不是最相关的预测。
>
> 目前除了TopK和RMSE的这样评测相关性的指标,另外一个比较热门的研究是diversity的问题,也就是多样性。
>
> 这是这几年关于多样性研究的论文
>
> http://scholar.google.com/scholar?q=recommender+system+diverstiy&hl=e...
我如果都很明确了,搜索就行了
On 8月8日, 下午8时04分, xlvector <xlvec...@gmail.com> wrote:
> 前面关于TopK和RMSE的讨论很热烈,大家也各自发表了意见。最后守昆的意见对我很有启发,其实用户需要的的确不是最相关的预测。
>
> 目前除了TopK和RMSE的这样评测相关性的指标,另外一个比较热门的研究是diversity的问题,也就是多样性。
>
> 这是这几年关于多样性研究的论文
>
> http://scholar.google.com/scholar?q=recommender+system+diverstiy&hl=e...
> > > > > > 不知道各位对推荐系统的评测有什么看法。我先抛砖引玉了。- 隐藏被引用文字 -
>
> - 显示引用的文字 -
推荐系统的用户往往会抱怨“为什么老给我推荐我知道的东西?!”
例如:你买了《长尾理论》,系统多半会给你推荐《维基经济学》
但很多long tail的读者,通过N种渠道会知道wiki-econ这本书
但即便如此,有的用户会给我们反馈说“推荐系统很准喔!”
而同时又有一些人说“我已经买过了!”
另外,像amazon卖的书,多翻几页就能把评论内容扫完,推荐不推荐好像没啥本质差别(推荐的意义相当于关键字推荐)
我扫评论是在做一件什么事情呢?就是在看item与我有多相关,而评论提炼了这个item的features(以人力的方式作数据预处理)
这相当于我用脑力给自己计算个性化推荐
如果用机器计算人、物的features并match的话。。。
On Aug 11, 9:29 am, wanght <wangh...@gmail.com> wrote:
> 但我们遇到的问题是(包括我在豆瓣上的体验):
>
> 推荐系统的用户往往会抱怨"为什么老给我推荐我知道的东西?!"
>
> 例如:你买了《长尾理论》,系统多半会给你推荐《维基经济学》
> 但很多long tail的读者,通过N种渠道会知道wiki-econ这本书
>
> 但即便如此,有的用户会给我们反馈说"推荐系统很准喔!"
> 而同时又有一些人说"我已经买过了!"
> On 8月12日, 上午12时06分, raullew <raul...@hotmail.com> wrote:
>
>
>
> > 按我的理解,普遍适合的主评测标准就只有一个----相关
> > 多样性是对个性的一种描述,如果要拿来做评测,也是评测对多样性个性(这一种个性)的满意度
> > 当然,这是一种带有普遍性的个性,正如新鲜度、权威度等,对于内容推荐,这些也确实可以成为很好的副指标
>
> > On 8月8日, 下午8时04分, xlvector <xlvec...@gmail.com> wrote:
>
> > > 前面关于TopK和RMSE的讨论很热烈,大家也各自发表了意见。最后守昆的意见对我很有启发,其实用户需要的的确不是最相关的预测。
>
> > > 目前除了TopK和RMSE的这样评测相关性的指标,另外一个比较热门的研究是diversity的问题,也就是多样性。
>
> > > 这是这几年关于多样性研究的论文
>
> > >http://scholar.google.com/scholar?q=recommender+system+diverstiy&hl=e...
>
> > > 除了多样性,守昆提到的惊喜也是很有启发的。我们知道,流行的东西每个用户基本会看,但用户并不需要你为他推荐热门的东西,因为热门的到处都有,不需要
> > > 推荐。用户需要的其实是他喜欢的,但是其他地方不容易找到的东西(比如我在北京,吃面不需要你推荐去哪儿,但是你如果能给我推荐卖黄桥烧饼的地方,我就
> > > 很高兴了,所以其实我不需要一个餐饮网站给我推荐谁都知道的餐馆,我需要的是很符合我的兴趣,但我没听说过的,或者很少人知道的,但服务很好的地
> > > 方)。
>
> > > 但是,很多指标量化是很困难的,在机器学习里,如果有一个量化的目标函数,肯定可以找到好的算法,但是用户满意度这个东西是很难量化的。
>
> > > 不知道各位对推荐系统的评测有什么看法。我先抛砖引玉了。- Hide quoted text -
>
> - Show quoted text -
On 8月12日, 上午9时25分, 张亮 <cddb.zh...@gmail.com> wrote:
> 有意思,呵呵。
> 不过,给一个极端的情况,如果推荐给用户的都是用户没听说的,不知道的,
> 就算推荐的结果其实很准确,有相当的用户会对这些不熟悉的推荐产生抗拒感(比如我,即便我知道结果是怎么产生的)。
>
> 结果就是,推荐结果固然是新鲜了,用的人也少了。
>
> 个人感觉,普通人还是不相信这些机器产生的结果的,尤其是陌生的推荐。除非机器像人一样,在推荐的同时,给了一大堆推荐
> 的理由。
>
> 2009/8/12 wanght <wangh...@gmail.com>
>
>
>
>
>
> > 但我们遇到的问题是(包括我在豆瓣上的体验):
>
> > 推荐系统的用户往往会抱怨“为什么老给我推荐我知道的东西?!”
>
> > 例如:你买了《长尾理论》,系统多半会给你推荐《维基经济学》
> > 但很多long tail的读者,通过N种渠道会知道wiki-econ这本书
>
> > 但即便如此,有的用户会给我们反馈说“推荐系统很准喔!”
> > 而同时又有一些人说“我已经买过了!”
> > On 8月12日, 上午12时06分, raullew <raul...@hotmail.com> wrote:
> > > 按我的理解,普遍适合的主评测标准就只有一个——相关
> > > 多样性是对个性的一种描述,如果要拿来做评测,也是评测对多样性个性(这一种个性)的满意度
> > > 当然,这是一种带有普遍性的个性,正如新鲜度、权威度等,对于内容推荐,这些也确实可以成为很好的副指标
>
> > > On 8月8日, 下午8时04分, xlvector <xlvec...@gmail.com> wrote:
>
> > > > 前面关于TopK和RMSE的讨论很热烈,大家也各自发表了意见。最后守昆的意见对我很有启发,其实用户需要的的确不是最相关的预测。
>
> > > > 目前除了TopK和RMSE的这样评测相关性的指标,另外一个比较热门的研究是diversity的问题,也就是多样性。
>
> > > > 这是这几年关于多样性研究的论文
>
> > > >http://scholar.google.com/scholar?q=recommender+system+diverstiy&hl=e.
> > ..
>
> > > > 除了多样性,守昆提到的惊喜也是很有启发的。我们知道,流行的东西每个用户基本会看,但用户并不需要你为他推荐热门的东西,因为热门的到处都有,不需要
> > > > 推荐。用户需要的其实是他喜欢的,但是其他地方不容易找到的东西(比如我在北京,吃面不需要你推荐去哪儿,但是你如果能给我推荐卖黄桥烧饼的地方,我就
> > > > 很高兴了,所以其实我不需要一个餐饮网站给我推荐谁都知道的餐馆,我需要的是很符合我的兴趣,但我没听说过的,或者很少人知道的,但服务很好的地
> > > > 方)。
>
> > > > 但是,很多指标量化是很困难的,在机器学习里,如果有一个量化的目标函数,肯定可以找到好的算法,但是用户满意度这个东西是很难量化的。
>
> > > > 不知道各位对推荐系统的评测有什么看法。我先抛砖引玉了。
>
> --
> 张亮
> Tensor Zhang- 隐藏被引用文字 -
>
> - 显示引用的文字 -
比如,我们中国人搜论文的时候有的时候找不到合适的关键词,如果有个推荐系统
能根据我搜索的关键词推荐一些关键词让我搜索,就不错了,嘿嘿。
On Aug 12, 10:00 am, 晨醒 <chenxing.y...@gmail.com> wrote:
> 我想推荐给用户的东西里有没有听说过的应该是很正常的,总不能指望在一个迅速变化的物品集合里总是推荐用户听说过的东西。
> 用户是否信赖机器的推荐结果应该要看用户群吧,我想想玩聚SR那样社会化推荐引擎的用户可能更容易接受闻所未闻的物品。
>
> On 8月12日, 上午9时25分, 张亮 <cddb.zh...@gmail.com> wrote:
>
> > 有意思,呵呵。
> > 不过,给一个极端的情况,如果推荐给用户的都是用户没听说的,不知道的,
> > 就算推荐的结果其实很准确,有相当的用户会对这些不熟悉的推荐产生抗拒感(比如我,即便我知道结果是怎么产生的)。
>
> > 结果就是,推荐结果固然是新鲜了,用的人也少了。
>
> > 个人感觉,普通人还是不相信这些机器产生的结果的,尤其是陌生的推荐。除非机器像人一样,在推荐的同时,给了一大堆推荐
> > 的理由。
>
> > 2009/8/12 wanght <wangh...@gmail.com>
>
> > > 但我们遇到的问题是(包括我在豆瓣上的体验):
>
> > > 推荐系统的用户往往会抱怨"为什么老给我推荐我知道的东西?!"
>
> > > 例如:你买了《长尾理论》,系统多半会给你推荐《维基经济学》
> > > 但很多long tail的读者,通过N种渠道会知道wiki-econ这本书
>
> > > 但即便如此,有的用户会给我们反馈说"推荐系统很准喔!"
> > > 而同时又有一些人说"我已经买过了!"
> > > On 8月12日, 上午12时06分, raullew <raul...@hotmail.com> wrote:
> > > > 按我的理解,普遍适合的主评测标准就只有一个----相关
曾经用过一个推荐网页的站点,名字忘记了,整个界面很简单,右上角有几个按钮,好像是“喜欢”“下一个”之类的,点击之后会跳转到下一个推荐页面,用这
个站点的时候,就会发现如果一直推荐同类的,甚至之前点“喜欢”的那些网页的同类网页,马上就会对这个系统厌烦了,而这个网站的主题就是发现,发现不同
的新东西。
On 8月12日, 上午10时12分, 张亮 <cddb.zh...@gmail.com> wrote:
> 哈哈,你误会我的意思了,我并没有认为应该全部推荐听过的,这样就违背了推荐的本意了。
> 只是,如何说服用户信任你很重要。推荐的结果应该要朝被大多数人接受的方向努力,而不能一味依赖
> 某些用户群。
> 一两次的尝鲜可能并不坏,但是你要别人在经历过一两次失败后,还对老是挂在页面上的陌生的推荐菜单产生兴趣
> 是件很困难的事情。
>
> 一句话,个人意见,在推荐结果中包含一点用户熟悉的东西,能够提高用户对推荐错误的容忍度。
> 当然,还有很多设计都是为了提高用户容忍度,或者信任度的。
>
> 2009/8/12 晨醒 <chenxing.y...@gmail.com>
今年CMU在kdd上有个paper在这方面做了些探讨(TANGENT: A Novel, "Surprise-me",
Recommendation Algorithm) ,idea比较有意思,但是在实际应用中效果如何,我觉得还有待实际检验。 因为目前在衡量
diversity上没有很权威的指标,所以我觉得最好的方法,就是把这个算法放到个实际系统中去跑跑,然后通过用户的点击率来看看是否有效;或者直接
做用户调查也行。
On Aug 12, 12:29 am, wanght <wangh...@gmail.com> wrote:
> 但我们遇到的问题是(包括我在豆瓣上的体验):
>
> 推荐系统的用户往往会抱怨"为什么老给我推荐我知道的东西?!"
>
> 例如:你买了《长尾理论》,系统多半会给你推荐《维基经济学》
> 但很多long tail的读者,通过N种渠道会知道wiki-econ这本书
>
> 但即便如此,有的用户会给我们反馈说"推荐系统很准喔!"
> 而同时又有一些人说"我已经买过了!"
> On 8月12日, 上午12时06分, raullew <raul...@hotmail.com> wrote:
>
> > 按我的理解,普遍适合的主评测标准就只有一个----相关
On Aug 12, 11:47 am, 张亮 <cddb.zh...@gmail.com> wrote:
> 我们在讨论两个问题。
> 你说的是多样性的好处,我说的是信任问题。
> 推荐给用户新鲜物品在给用户带来新鲜感的同时,也给他增加了使其判别是否是其所爱的成本,尤其是目前
> 技术做不到精确推荐的前提下。
>
> 2009/8/12 晨醒 <chenxing.y...@gmail.com>
> > > > > > > 按我的理解,普遍适合的主评测标准就只有一个----相关
1、机器自动推荐的,我们强调相关性
2、强调diversity的场景,我们会基于用户的人肉推荐
之所以这样,原因在于相关性是可度量的,虽然很难令人excited,但是稳妥的;
而diversity虽然可以创造surprise,但若过于扯淡,用户会不爽的,因此要赋予用户更强的控制力
On Aug 12, 2:15 pm, wentrue <guozhu...@gmail.com> wrote:
> 一方面,accuracy是可以度量的,无论是RMSE还是还是召回率/准确率;而diversity是很难量化的,即使对一种事物一类人群适用的量化方式换到另一种事物另一类人群时就不适用了,不具有普遍性,就很难推广开去。
>
> 另一方面,推荐确实是需要计算一个风险成本的最优,推荐一本用户喜欢的书,他可能没有太大的感觉,但推荐一本用户很不喜欢的书,他可要大发雷霆,持续多次就会失去用户的信任。正是这种效益/风险的不对称,致使很多推荐系统不敢太过追求diversity,宁可推荐作出一些保守的推荐。
>
> 解决思路是:让用户更多地参与其中,人可能不会相信机器,但人天生具有自恋感。
>
> 2009/8/12 Yuan Quan <quanyuan...@gmail.com>
> mail: guozhu...@gmail.com
前面关于TopK和RMSE的讨论很热烈,大家也各自发表了意见。最后守昆的意见对我很有启发,其实用户需要的的确不是最相关的预测。目前除了TopK和RMSE的这样评测相关性的指标,另外一个比较热门的研究是diversity的问题,也就是多样性。
这是这几年关于多样性研究的论文
http://scholar.google.com/scholar?q=recommender+system+diverstiy&hl=en&btnG=Search