我的错,忘记说明下我的问题了。
是这样的,我在实现一个推荐算法----协同过滤(CF)
数据是二元的,第一列是用户ID,第二列是用户购买过的商品ID,整个数据表明了用户和他所购买过的商品信息
我先要计算每个用户的邻居,也就是跟他购买过相同商品的人,然后通过这些邻居预测目标用户对没有购买过的商品的打分。
我的数据集中数据记录有100多万条,10000个用户,24万多商品,数据集并非数据库,可以通过普通的编辑器就能打开的文件。每条记录格式:
123 456
123 45678
123 23679
......
计算主要消耗在寻找相似用户,预测商品打分上了
我目前没有太好的数据组织方式
我的方式:
1,分别为用户和商品库建立一个链表,每个用户节点包涵了三个链表:购买过的商品,自己的邻居,推荐列表
2,通过查找不同用户和目标用户之间是否购买过相同的商品计算他们的相似度
3,找完自己的邻居后,就开始对商品库中的商品进行预测打分
用户和商品库都是通过简单的单链表进行组织,经常进行循环查找,费时的很。
吴工有啥比较好的方法吗,有好的处理工具推荐一下也好。苦思中....
余露