豆瓣的推荐系统怎么做的啊?

73 views
Skip to first unread message

Mahout

unread,
Oct 14, 2010, 7:30:32 AM10/14/10
to Resys
一直觉得豆瓣网不错,但因为忙,没太去看过。这两天看算法攻城师们翻译的书用了一下,有个疑问。

豆瓣的喜欢读A的人也喜欢B的推荐功能是用什么方法实现的呢,感觉对小众图书的推荐效果非常不好。我看了几个机器学习和数据挖掘方面的书,多数推荐结果
都不好。好像评分人数只有10来个或者更少的情况下,这个推荐就完全不灵了。

有豆瓣的同志能给解答一下吗?

Mahout

unread,
Oct 14, 2010, 8:10:54 AM10/14/10
to Resys
另外,豆瓣猜那里推荐的图书一多半都是我的阅读列表里的书。很难判断把这些书去了之后结果会怎么样。

raullew

unread,
Oct 14, 2010, 9:09:19 AM10/14/10
to Resys
那这个,,,我只会推荐EoSL。。。这是我见过的讲为什么这个方法会work以及什么情况下work最多的书了
唯一的问题可能是一些工程领域的topic没有独立出来,只是穿插其中,不过这已经有专门的书籍处理了

> > 有豆瓣的同志能给解答一下吗?- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Guozhu.Wen

unread,
Oct 14, 2010, 10:08:30 AM10/14/10
to re...@googlegroups.com
是的,这个是推荐中常见的条目冷启动问题,没有充足数据作为基础,CF是难为无米之炊的,这个时候只有借助content-based的方法。

这个模块是很受用户喜欢的一个模块,但问题也很多,其实不单是评分少容易出问题,评分多的更容易出问题,前前后后也改过几次算法,也只能照顾到更多人收藏的条目。小众的条目一方面还很难顾及到,另一方面,有这方面需求的人往往也不怎么依赖于那里的推荐:)

这些事情是豆瓣一直想要完善的事情,但要一一改善需要不少的人力成本投入,而我们人手极其匮乏,只能把有限的力量用在最重要、影响用户最多的方面去。如果有朋友对此感兴趣,也欢迎加入我们,共同把推荐做好。

2010/10/14 Mahout <mahou...@gmail.com>



--
阿稳
Guozhu. Wen
算法攻城师
mail: guoz...@gmail.com
douban: http://www.douban.com/people/wentrue/
blog: http://www.wentrue.net/blog/
twitter: https://twitter.com/wentrue
skype: wentrue

Mahout

unread,
Oct 14, 2010, 10:35:35 PM10/14/10
to Resys
哦,原来攻城师就是豆瓣的啊,失敬失敬。按说一个书有10来个评分已经不能算少了啊。

>>如果有朋友对此感兴趣,也欢迎加入我们,共同把推荐做好。

呵呵,这个对我这个岁数的人说动静太大了,不过要是能共享点数据集我倒可以看看 :)

On 10月14日, 下午10时08分, "Guozhu.Wen" <guozhu...@gmail.com> wrote:
> 是的,这个是推荐中常见的条目冷启动问题,没有充足数据作为基础,CF是难为无米之炊的,这个时候只有借助content-based的方法。
>
> 这个模块是很受用户喜欢的一个模块,但问题也很多,其实不单是评分少容易出问题,评分多的更容易出问题,前前后后也改过几次算法,也只能照顾到更多人收藏的条目。小众的条目一方面还很难顾及到,另一方面,有这方面需求的人往往也不怎么依赖于那里的推荐:)
>
> 这些事情是豆瓣一直想要完善的事情,但要一一改善需要不少的人力成本投入,而我们人手极其匮乏,只能把有限的力量用在最重要、影响用户最多的方面去。如果有朋友对此感兴趣,也欢迎加入我们,共同把推荐做好。
>

> 2010/10/14 Mahout <mahout.c...@gmail.com>


>
> > 一直觉得豆瓣网不错,但因为忙,没太去看过。这两天看算法攻城师们翻译的书用了一下,有个疑问。
>
> > 豆瓣的喜欢读A的人也喜欢B的推荐功能是用什么方法实现的呢,感觉对小众图书的推荐效果非常不好。我看了几个机器学习和数据挖掘方面的书,多数推荐结果
> > 都不好。好像评分人数只有10来个或者更少的情况下,这个推荐就完全不灵了。
>
> > 有豆瓣的同志能给解答一下吗?
>
> --
> 阿稳
> Guozhu. Wen
> 算法攻城师

> mail: guozhu...@gmail.com

loveisp

unread,
Oct 14, 2010, 11:11:17 PM10/14/10
to Resys
我也觉得CF似乎局限性比较大。现在douban的图书有内容简介作者简介目录书评等content,用content-based方法从这些数据当中
找到有效的推荐应该不是难事吧,比如LDA、LSA之类的。离线工作量大概会很大,不过那不算什么问题。

同问有没有数据可以共享,大家一起研究、相互启发、共同进步才是王道么``

On 10月14日, 下午10时08分, "Guozhu.Wen" <guozhu...@gmail.com> wrote:

> 是的,这个是推荐中常见的条目冷启动问题,没有充足数据作为基础,CF是难为无米之炊的,这个时候只有借助content-based的方法。
>
> 这个模块是很受用户喜欢的一个模块,但问题也很多,其实不单是评分少容易出问题,评分多的更容易出问题,前前后后也改过几次算法,也只能照顾到更多人收藏的条目 。小众的条目一方面还很难顾及到,另一方面,有这方面需求的人往往也不怎么依赖于那里的推荐:)
>

> 这些事情是豆瓣一直想要完善的事情,但要一一改善需要不少的人力成本投入,而我们人手极其匮乏,只能把有限的力量用在最重要、影响用户最多的方面去。如果有朋友 对此感兴趣,也欢迎加入我们,共同把推荐做好。
>
> 2010/10/14 Mahout <mahout.c...@gmail.com>
>


> > 一直觉得豆瓣网不错,但因为忙,没太去看过。这两天看算法攻城师们翻译的书用了一下,有个疑问。
>
> > 豆瓣的喜欢读A的人也喜欢B的推荐功能是用什么方法实现的呢,感觉对小众图书的推荐效果非常不好。我看了几个机器学习和数据挖掘方面的书,多数推荐结果
> > 都不好。好像评分人数只有10来个或者更少的情况下,这个推荐就完全不灵了。
>
> > 有豆瓣的同志能给解答一下吗?
>
> --
> 阿稳
> Guozhu. Wen
> 算法攻城师

> mail: guozhu...@gmail.com

Ricky

unread,
Oct 15, 2010, 12:45:43 AM10/15/10
to re...@googlegroups.com
个人不懂算法之类的,但是感觉类似豆瓣的“看过A的也喜欢看”其实真正有用的并不大,往往是冷门的一些内容这种推荐还不错,个人比较喜欢类似jinni和pandora这种本身筛选的相关推荐。

比较喜欢豆瓣的豆列,往往能从豆列上发现不少好东西。
--
Ricky
Tel:15801335413
QQ:653630675
MSN:rush2...@hotmail.com
Reply all
Reply to author
Forward
0 new messages