我的错,忘记说明下我的问题了。
是这样的,我在实现一个推荐算法----协同过滤(CF)
数据是二元的,第一列是用户ID,第二列是用户购买过的商品ID,整个数据表明了用户和他所购买过的商品信息
我先要计算每个用户的邻居,也就是跟他购买过相同商品的人,然后通过这些邻居预测目标用户对没有购买过的商品的打分。
我的数据集中数据记录有100多万条,10000个用户,24万多商品,数据集并非数据库,可以通过普通的编辑器就能打开的文件。每条记录格式:
123 456
123 45678
123 23679
......
计算主要消耗在寻找相似用户,预测商品打分上了
我目前没有太好的数据组织方式
我的方式:
1,分别为用户和商品库建立一个链表,每个用户节点包涵了三个链表:购买过的商品,自己的邻居,推荐列表
2,通过查找不同用户和目标用户之间是否购买过相同的商品计算他们的相似度
3,找完自己的邻居后,就开始对商品库中的商品进行预测打分
用户和商品库都是通过简单的单链表进行组织,经常进行循环查找,费时的很。
吴工有啥比较好的方法吗,有好的处理工具推荐一下也好。苦思中....
余露
2012/6/12 吴朱华
<ike...@gmail.com>
很多的计算? 主要是那些计算?
如果不知道如何使用这些数据,那么就很难选择合适的算法了
在 2012年6月12日 上午10:05,余露
<cool...@gmail.com>写道:
大家好:
大概有100多万条的数据,要经过很多的计算,让他们推荐几个算法,有名字就行呀,当然各位要是不吝啬笔墨的话,那就更谢谢啦。
真心没头绪,光自己想到的也就是用下二叉树,或者链表的形式组织数据了,没有数据库,只有数据文件
单条数据记录格式:
123 345
134 56789
........
余露
--
Cheers!
人云科技 PeopleYun.com
只有掌握和控制最核心的云计算技术,才能在这场巨大的浪潮中处于主导!!!