关于数据挖掘

39 views
Skip to first unread message

li-zhenguo

unread,
Oct 30, 2006, 1:58:41 AM10/30/06
to ttnn BI 观点(586成员)
以前总是觉得数据挖掘是一个很神秘的东东,学术性很强。最近看到论坛上也有不少关于这方面的帖子,而且谈的基本都是关联规则方面的应用情况。我也去找本书了解了一下,觉得关联规则应该是各种规则中比较简单和容易理解的,通过学习它来完成数据挖掘入门应该是一个比较好的途径。想请教一下各位大侠:
1,能不能介绍几本对关联规则描述比较详尽的书?
2,目前关联规则应用上遇到的主要问题是什么?
3,目前数据挖掘应用到了一个怎样程度?

另外,我们用sas作了关联规则的尝试,如个人客户购买的各种银行产品之间的关联性分析,但统计出来结果基本都是显而易见的关联,比如房贷客户都开了信用卡(我们行给每个房贷客户都开办信用卡),对实际业务没有什么帮助。请问各位大侠有没有遇到类似的情况,都是怎样解决的?

hunter

unread,
Oct 30, 2006, 6:54:35 PM10/30/06
to ttnn BI 观点(586成员)
呵呵,我来抛砖引玉,

1。如果是为了学习数据挖掘,建议从介绍更全面的书开始,这样可以有一个全面的了解。

综合书我看过不错的有《数据挖掘导论》introduction to
data mining 人民邮电出版社 Pang-Ning Tan 著

国内书:数据挖掘算法极其工程应用 机工社
张小刚等著

参考书:Data Mining: Concepts and Techniques, J. Han and M.
Kamber, Morgan Kaufmann , 2000 有ppt (Slides can be downloaded from
http://www.cs.sfu.ca/~han/DM_Book.html

一般性参考:David Hand, Heikki Mannila, Padhraic Smith,
Principles of Data Mining, MIT Press, 2001.
Mehmed M. Kantard, Data Mining: Concepts, Models, Methods and
Algorithms, Wiley-IEEE Press, 2002.
Ethem Alpaydin, Introduction to Machine Learning, MIT Press, 2004.


还有很多综述论文,应用论文,推荐其中一篇
Implementing a Data Mining Solution for an Automobile Insurance
Company: reconsile Theroretical benefits with practical considerations

(很好,看完对国外数据挖掘的应用流程,实际项目会有一个了解)
http://www.idea-group.com/downloads/pdf/IT5657_1d0QYE8EQC.pdf


还可以从这里找一些电子资源:
http://www.csie.ncu.edu.tw/~chia/Course/DM/
台湾一个教授的教学网站,还有另一个加拿大教授的教学网站也很好:http://www2.cs.uregina.ca/~hamilton/courses/831/index.html

http://www2.cs.uregina.ca/~hamilton/courses/831/notes/ml/dtrees/4_dtrees1.html
详细讲述C4.5算法的步骤


这个excel决策树的也不错
Classification Tree in Excel, from Angshuman Saha
http://www.geocities.com/adotsaha/CTree/CtreeinExcel.html

从sas入手是个好选择(会不会难了点),sas自己网站上有免费的教程(Data
Mining In The Insurance Industry - Solving Business Problems Using Sas
Enterprise Miner Software.pdf),还有

官方出版物 Data Mining Using SAS Enterprise MinerA Case Study
Approach

SAS 9.1.3 Enterprise Miner Course (Data Mining) 2005. SAS Official
Training Course等

2。
目前关联规则的主要问题,就国内银行的应用来说,我知道的其实和基础数据质量,以及很多商业、实施的因素有关(非dm技术因素),算法的问题包括筛选指标选择(支持度,信心度并不是很理想的指标,可以用其他指标如兴趣度,意外度,结合领域知识,其他dm技术来代替),时间序列,算法效率,多数据库间的关联规则等。

3。应用到怎样程度就不知道了,呵呵,回答这个问题难度不比“中国erp的实施情况到底怎么样?”容易

建议先从dm技术以外入手,考虑一下想从数据中得到什么,然后再选择相应方法(不一定是关联规则)。

以后多交流!也许可以合作哦!目前我正在研究crm的数据挖掘,侧重于金融和汽车等行业。

hunter

unread,
Oct 30, 2006, 7:26:17 PM10/30/06
to ttnn BI 观点(586成员)
还有几本介绍类的书,
对掌握什么是数据挖掘,什么样的应用可以用什么样的方法,比较有帮助:

Mastering data mining : the art and science of customer relationship
managem . - New York : Wiley Computer Publishing, 2000
好书,算法介绍比较全面,结合实际,应该有中文版

Building data mining applications for CRM / Alex Berson, Steph
(没怎么细看,不过讲银行案例的内容不少)

data mining cookbook
有中文版,全用sas做各种应用,可以参考

my contact: hunterdong at hotmail。com_

Reply all
Reply to author
Forward
0 new messages