网友关联就是给一个网络用户找到他可能喜欢的另一个用户。这可以通过BLOG、浏览、阅读、兴趣表等方面或多方面综合来判断。比如BLOG聚类,根据博
文文字,文以类聚。如果是内容聚类,这个比较简单。复杂的话可以考虑文风和性情。挖掘之后,可以告诉用户,哪些BLOG和你的很相似。对读者也有类似的
推荐阅读功能。相信大家都会感兴趣。BLOG之间的现在链接也是可以利用的,通过关联分析,了解一类人喜欢哪几类人。比如IT wsn喜欢加美女为友,
喜欢群聊8g话题;投行的喜欢名牌和泡高档吧。还有可以利用用户的读书、购物记录,进行关联。比如对一个豆瓣或facebook用户,找和她看同类的书
/电影/音乐的潜在朋友。(注意,是“同类”,这就先有个对项目聚类的任务。)这个可以通过这些网站提供的API读取用户数据,然后进行数据挖掘。
我与互联网还有些交错合离的经历。中国第一个千万用户级电子邮箱coremail和
163.net是我的高一界的师兄在大学期间开发和创立的,有些大网
站也在用这套系统。我的同学在网易还只是几个人的时候,在丁前首富那里兼职。不过我剑走偏锋,没做热门技术,而是去做BI。我也做过网站,觉得当时的开
发语言和工具要改进的地方太多了。果然后来几年互联网应用开发技术和工具有了很大的进步;但还是不够。不过,我亲历电信交换机上的应用开发后,才知互联
网开发再怎么原始,还是比电信要灵活得多。
我也做过电信业的BI。电信业与互联网其实是两回事。互联网是极度开放的,在技术上来说,平台往往自己掌握的,必要时会改写操作系统、数据库、中间件
等,很多公司也这样做过。在运营手段上来说,也是不管3721,无所不用其极。尤其在数据上,获取的手段也很多。永远不要满足于手头上的数据,也不要限
于现有技术能收集到的数据。总可以设法拿更多的数据,必要时可改写网络服务器来增加数据采集点。AOP(aspect oriented
programming)之类的框架技术也使数据捕获的开发更为简单。另外还要特别注意“互联”二字。在服务上,按web 2.0的概念,多个网站可以
联合起来提供服务。现在越来越多的网站开放RSS/API或web services,供第三方运用。数据上更是一片公海,只要有能力,小公司也可以爬
整个互联网的超文本数据。就算是别国的领海,或者是用户的桌面行为,也照样有办法搞到数据。独立的互联网数据供应与分析公司也会越来越多。
前面有人讨论BI项目的价值。在互联网是快鱼吃慢鱼。BI是产业链整合中的神经线和反射弧,它价值是缩短企业反应时间。对互联网内容提供者来说,非常关
键的其中一点是做市场变化的快速反应者。如果ETL三周,挖掘建模三周,新产品开发三周、部署三周,这时市场早从6000点变到3000点,功夫白费
了。要把三个月压缩成三天。一个热点出现,马上就推出新产品。这就要更多的IT介入,并且IT系统全线整合。(整合才实现价值。)IT技术应用的目的,
就是要在成本可控的条件下,尽量地快。业务人员很有经验,但处理大量情景时很慢,就用机器做,哪怕粗糙一点。精确的算法准确度高5%,但多运行三个小
时,就改用简单的算法。只要能达到目的,不拘一格。数据挖掘也只是一个环节或一个手段。而且数据挖掘也不必是一个独立的部门,实际中经常是要无缝嵌到事
务系统里。
另外几个分析题目迟些再写...仅是抛砖引玉,大家指正。