数据挖掘的常见问题,推荐

19 views
Skip to first unread message

Qing

unread,
Sep 10, 2007, 12:34:35 AM9/10/07
to tt...@googlegroups.com
这里有一份SAS的文档,讲述数据挖掘容易犯下的错误,从七大方面讲述,每个方面又一一列举,密密麻麻的文字,20页。
 
本人对数据挖掘的过程不够专业,所以,我这里只作推荐,不作评述。不知道是否有哪位挖掘大侠能够抽点时间将这大段鸟语翻译一下,以飨广大挖掘从业者。

Delin He

unread,
Sep 10, 2007, 12:39:20 AM9/10/07
to tt...@googlegroups.com
要不分工合作,一人一页    一个人搞工作量太大!

在07-9-10,Qing <happ...@gmail.com> 写道:
这里有一份SAS的文档,讲述数据挖掘容易犯下的错误,从七大方面讲述,每个方面又一一列举,密密麻麻的文字,20页。
 
本人对数据挖掘的过程不够专业,所以,我这里只作推荐,不作评述。不知道是否有哪位挖掘大侠能够抽点时间将这大段鸟语翻译一下,以飨广大挖掘从业者。


Computer Department, STKM, BUCT
Chaoyang District, Beijing, 100029
Mailto: beij...@gmail.com

Qing

unread,
Sep 10, 2007, 1:11:39 AM9/10/07
to tt...@googlegroups.com
欢迎,既然有delin组织了,还请各位挖掘高人露个脸,愿意承担部分章节的报个名,然后下来谈具体分工事宜。
 
好滴! 各位挖掘高人冒个泡啊,这次翻译了,咱们以后可以组织起来翻译国外的BI书籍,国内的中文BI书籍匮乏啊, 俺办公桌上还扔了本pearson2006年12出版的《Decision Support and Business Intelligence Systems 》,看蚂蚁似的英文字母,很费劲。

 
在07-9-10,Qing <happ...@gmail.com> 写道:
要不你来组织一下?弄五六个人就可以了,一个人分三四页。
 
不用把我算上,我不是搞挖掘专业的,所以还是将机会让给其他朋友吧,哈哈。
 
On 9/9/07, Delin He <beij...@gmail.com > wrote:
要不分工合作,一人一页    一个人搞工作量太大!

Xuanpu Sun

unread,
Sep 10, 2007, 3:19:47 AM9/10/07
to tt...@googlegroups.com
可以这样随便翻译吗?版权的问题怎么处理?(随便问一下,如果不存在问题就当我没有说)
--
M.Sc. Xuanpu Sun
Nordbahnhofstrasse 161C
Zimmer 221
70191 Stuttgart

Tel:      +49 (0) 711 1255 3684
Mobile: +49 (0) 176 2321 5655

Delin He

unread,
Sep 10, 2007, 3:39:50 AM9/10/07
to tt...@googlegroups.com
内部交流 又不拿去卖钱

在07-9-10,Xuanpu Sun <xua...@gmail.com> 写道:

Richardzzh

unread,
Sep 10, 2007, 4:45:40 AM9/10/07
to ttnn BI 观点
同意楼上的,请大家报名吧,先看一下,有没有翻的价值,呵


On 9月10日, 下午3时39分, "Delin He" <beiji...@gmail.com> wrote:
> 内部交流 又不拿去卖钱
>
> 在07-9-10,Xuanpu Sun <xua...@gmail.com> 写道:
>
>
>
>
>
>
>
> > 可以这样随便翻译吗?版权的问题怎么处理?(随便问一下,如果不存在问题就当我没有说)
>

> > On 10/09/2007, Qing <happys...@gmail.com> wrote:
>
> > > 欢迎,既然有delin组织了,还请各位挖掘高人露个脸,愿意承担部分章节的报个名,然后下来谈具体分工事宜。
>
> > > > 好滴! 各位挖掘高人冒个泡啊,这次翻译了,咱们以后可以组织起来翻译国外的BI书籍,国内的中文BI书籍匮乏啊,

> > > > 俺办公桌上还扔了本pearson2006年12出版的《*Decision Support and Business Intelligence
> > > > Systems *》,看蚂蚁似的英文字母,很费劲。
>
> > > > 在07-9-10,Qing <happys...@gmail.com > 写道:


>
> > > > > 要不你来组织一下?弄五六个人就可以了,一个人分三四页。
>
> > > > > 不用把我算上,我不是搞挖掘专业的,所以还是将机会让给其他朋友吧,哈哈。
>

> > > > > On 9/9/07, Delin He <beiji...@gmail.com > wrote:
>
> > > > > > 要不分工合作,一人一页 一个人搞工作量太大!
>
> > --
> > M.Sc. Xuanpu Sun
> > Nordbahnhofstrasse 161C
> > Zimmer 221
> > 70191 Stuttgart
>
> > Tel: +49 (0) 711 1255 3684
> > Mobile: +49 (0) 176 2321 5655
>

> --
> Best regards!
>
> He Delin(何德琳)
> ----------------------------------


> Computer Department, STKM, BUCT
> Chaoyang District, Beijing, 100029

> Mailto: beiji...@gmail.com- 隐藏被引用文字 -
>
> - 显示引用的文字 -

兰德里尼

unread,
Sep 12, 2007, 9:33:25 PM9/12/07
to ttnn BI 观点
我来报个名吧,4级刚刚过,6级刚刚不过
不过看了一下,大概差不多
分配好了发Email给我吧

Hu, Jiangtang

unread,
Sep 13, 2007, 2:10:01 AM9/13/07
to tt...@googlegroups.com
这是一篇基于SAS Enterprise Miner的报告,讲数据挖掘过程中可能要犯的一些错误,使用其他工具的用户也能有所启发。思路很清除,按着SAS鼓吹的SEMMA流程,先是数据准备,然后定义输入输出变量、数据分割、缺失值处理,然后讲三种有指导的学习算法:线性回归方程、决策树和神经网络,接着就是比较这三个模型、对新数据打分,接下来讲了一个无指导的学习算法,聚类,最后是关联分析和序贯算法。剩下的就是开头的简介,结尾的致谢之类。如果要翻译这篇文章,一个人领一个模块比较好。其中数据准备的部分比较多,可以多分配些人手。整了一下,全文的纲目如下: 

ABSTRACT
INTRODUCTION

1.          PREPARING THE DATA

1.1           FAILING TO CONSIDER ENOUGH VARIABLES

1.2           INCORRECTLY PREPARING OR FAILING TO PREPARE CATEGORICAL PREDICTORS

1.2.1      TOO MANY OVERALL LEVELS

1.2.2      LEVELS THAT RARELY OCCUR

1.2.3      ONE LEVEL THAT ALMOST ALWAYS OCCURS

1.3           INCORRECTLY PREPARING OR FAILING TO PREPARE CONTINUOUS PREDICTORS

1.3.1      EXTREMELY SKEWED PREDICTORS

1.3.2      A SPIKE AND A DISTRIBUTION

1.3.3      ONE LEVEL THAT ALMOST ALWAYS OCCURS

1.3.4      IGNORING OR MISUSING TIME-DEPENDENT INFORMATION

 

2            DEFINING ROLES, PERFORMING SAMPLING, AND DEFINING TARGET PROFILES 

2.1           INAPPROPRIATE METADATA

2.2           INADEQUATE OR EXCESSIVE INPUT DATA

2.3           INAPPROPRIATE OR MISSING TARGET PROFILE FOR CATEGORICAL TARGET

2.4           TARGET VARIABLE EVENT LEVELS OCCURRING IN DIFFERENT PROPORTIONS

2.5           DIFFERENCES IN MISCLASSIFICATION COSTS

 

3            PARTITIONING THE DATA

3.1           MISUNDERSTANDING THE ROLES OF THE PARTITIONED DATA SETS

3.2           FAILING TO CONSIDER CHANGING THE DEFAULT PARTITION

 

4            CHOOSING THE VARIABLES

4.1           FAILING TO EVALUATE THE VARIABLES BEFORE SELECTION

4.2           USING ONLY ONE SELECTION METHOD

4.3           MISUNDERSTANDING OR IGNORING VARIABLE SELECTION OPTIONS

4.3.1      CHOOSING SETTINGS IN THE χ2 MODE

4.3.2      CHOOSING SETTINGS IN THE R2 MODE

 

5            REPLACING MISSING DATA

5.1           FAILING TO EVALUATE IMPUTATION METHOD

5.2           OVERLOOKING MISSING VALUE INDICATORS

 

 

6            FITTING LINEAR REGRESSION MODELS

6.1           OVERUSING STEPWISE REGRESSION

6.2           INACCURATELY INTERPRETING THE RESULTS

 

7            FITTING DECISION TREE MODELS

7.1           IGNORING TREE INSTABILITY

7.2           IGNORING TREE LIMITATIONS

 

8            FITTING NEURAL NETWORK MODELS

8.1           FAILING TO DO VARIABLE SELECTION

8.2           FAILING TO CONSIDER NEURAL NETWORKS

 

9            COMPARING FITTED MODELS

9.1           MISINTERPRETING LIFT

9.2           CHOOSING THE WRONG ASSESSMENT STATISTIC

 

10        SCORING NEW DATA

10.1        GENERATING INEFFICIENT SCORE CODE

10.2        IGNORING THE MODEL PERFORMANCE

 

11        CLUSTERING YOUR DATA

11.1        BUILDING ONE CLUSTER SOLUTION

11.2        INCLUDING (MANY) CATEGORICAL VARIABLES

 

12        PERFORMING ASSOCIATION AND SEQUENCE ANALYSIS

12.1        FAILING TO SORT THE DATA SET

12.2        FAILING TO MANAGE THE NUMBER OF OUTCOMES

 

CONCLUSION

REFERENCES

ACKNOWLEDGMENTS

CONTACT INFORMATION



--
胡江堂

北京大学软件与微电子学院

Jiang...@gmail.com

生活博客: http://panshanghu.spaces.live.com/

技术博客: http://johnthu.spaces.live.com/

Hu, Jiangtang

unread,
Sep 13, 2007, 3:08:17 AM9/13/07
to tt...@googlegroups.com
大概6个人,大伙可以领自己感兴趣的部分:
前言和后面的结论、致谢等,1人,他可以顺便统稿;
数据准备,1人,4页;
定义输入输出等,加上数据分割,1人,5页;
选择变量,加上缺失值处理,1人,3页;
模型,回归、决策树、神经网络,1人,4页;
模型比较、打分、聚类、关联,1人,3页;


--
胡江堂

北京大学软件与微电子学院

Jiang...@gmail.com

生活博客: http://panshanghu.spaces.live.com/

技术博客: http://johnthu.spaces.live.com/

ding xining

unread,
Sep 13, 2007, 4:31:23 AM9/13/07
to tt...@googlegroups.com
人够吗?算我一个。我数据挖掘不算好,英语还行。

在07-9-10,Qing <happ...@gmail.com> 写道:

hunter

unread,
Sep 15, 2007, 2:58:35 AM9/15/07
to ttnn BI 观点
Have SAS themselves done this?

On Sep 13, 9:31 am, "ding xining" <happyjava.den...@gmail.com> wrote:
> 人够吗?算我一个。我数据挖掘不算好,英语还行。
>

> 在07-9-10,Qing <happys...@gmail.com> 写道:


>
>
>
>
>
> > 这里有一份SAS的文档,讲述数据挖掘容易犯下的错误,从七大方面讲述,每个方面又一一列举,密密麻麻的文字,20页。
>

> >http://www.iapa.org.au/Environments/edoras/Resources/IAPA/SAS%20Globa...
>
> > 本人对数据挖掘的过程不够专业,所以,我这里只作推荐,不作评述。不知道是否有哪位挖掘大侠能够抽点时间将这大段鸟语翻译一下,以飨广大挖掘从业者。- Hide quoted text -
>
> - Show quoted text -

hunter

unread,
Sep 15, 2007, 3:02:14 AM9/15/07
to ttnn BI 观点
I can take one part:) I have translated a few books many years ago
(maybe skill is not as good as before now)

On Sep 13, 9:31 am, "ding xining" <happyjava.den...@gmail.com> wrote:

> 人够吗?算我一个。我数据挖掘不算好,英语还行。
>
> 在07-9-10,Qing <happys...@gmail.com> 写道:


>
>
>
>
>
> > 这里有一份SAS的文档,讲述数据挖掘容易犯下的错误,从七大方面讲述,每个方面又一一列举,密密麻麻的文字,20页。
>

hunter

unread,
Sep 15, 2007, 4:03:58 AM9/15/07
to ttnn BI 观点
试译一段,请指正:

角色定义,取样操作和定义目标特征概要

在分析人员已对现有数据进行评估,并确定了如何准备数据之后,下一步的考虑应该是用多少数据来进行分析。在以前,对所有观测数据都进行分析是很有必要
的,因为数据量很有限,但如今数据挖掘通常都是建立在大量数据之上。初看上去可能应该把模型建立在全部数据上,但分析全部数据的时间成本经常要超过其相
对良好取样分析建模的收益。现在的挑战是要决定合适的样本以保证对样本的分析足以提供对大数据集或样本空间的有效认识。剩余数据则可用作校验所建的模
型。所有取样策略都要考虑目标变量的特性和输入变量的数目和特性。进行了变量选择和取样后,需对目标变量评估以确认建模策略无误。如果目标是类别
(categorical)变量,可能需要建立目标特征概要(profile)以便获取有用的模型,特别是大数据量的时候平均相关信息量比较低的情况
下。

不恰当的元数据

建立合适的元数据对于建模过程非常重要。元数据决定每个变量应该如何被使用。SAS enterprise miner可以基于变量名或取值自动确定建
模类型和每个变量的用途。可是,这个过程不能防止不恰当的变量(例如,数字Id)被当作连续输入,因为数值数据通常取值范围很大。编号信息,日期和其他
很多类别变量通常以数字形式出现,存储在数值型变量中。分析时不恰当地使用变量很容易导致错误的结果

> > - Show quoted text -- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Sonic . Jin

unread,
Sep 15, 2007, 11:47:23 AM9/15/07
to tt...@googlegroups.com
我就领前言和后面的结论、致谢等吧
 
Delin he 你具体分一下吧。。。到时候发E-MAIL给我

Delin He

unread,
Sep 15, 2007, 1:29:40 PM9/15/07
to tt...@googlegroups.com
暂时这样分的。
前言和后面的结论、致谢等,1 人,统稿,审校; Qing <happ...@gmail.com>        
数据准备,1 人,4 页;   ding xining <happyjav...@gmail.com >
定义输入输出等, 1 人,4 页; Delin He <beij...@gmail.com>,

数据分割 1 人, 1  统稿,审校          hunte...@gmail.com

选择变量,加上缺失值处理,1 人,3 页;   天宏 < tian...@taobao.com>,

模型,回归、决策树、神经网络,1 人, 4 页;  jiang...@gmail.com ,
模型比较、打分、聚类、关联, 1 人,3 页;zw <zw8...@hotmail.com     
 
要不Sonic . Jin前言和后面的结论、致谢等。让阿Q审校。


在07-9-15,Sonic . Jin <soni...@gmail.com> 写道:
我就领前言和后面的结论、致谢等吧
 
Delin he 你具体分一下吧。。。到时候发E-MAIL给我
Computer Department, STKM, BUCT
Chaoyang District, Beijing, 100029

Qing

unread,
Sep 16, 2007, 9:15:22 PM9/16/07
to tt...@googlegroups.com
欣然接受!

ding xining

unread,
Sep 16, 2007, 10:58:33 PM9/16/07
to tt...@googlegroups.com
my plesure!


 
在07-9-16,Delin He <beij...@gmail.com> 写道:

Sonic . Jin

unread,
Sep 17, 2007, 12:42:05 AM9/17/07
to tt...@googlegroups.com
那我就不翻译了吧·~~~~~~~~
等着大家的稿子来看~~~~~~~~~~~

 
my plesure!


 

jinfox

unread,
Sep 25, 2007, 11:28:16 PM9/25/07
to ttnn BI 观点
集体就力量就是大啊!呵呵,英语不好;只能等着拜读大作!*^_^*

On 9月17日, 下午12时42分, "Sonic . Jin" <sonic...@gmail.com> wrote:
> 那我就不翻译了吧·~~~~~~~~
> 等着大家的稿子来看~~~~~~~~~~~
>

> On 9/17/07, ding xining <happyjava.den...@gmail.com> wrote:
>
>
>
>
>
>
>
> > my plesure!
>

> > 在07-9-16,Delin He <beiji...@gmail.com> 写道:
>
> > > 暂时这样分的。
> > > 前言和后面的结论、致谢等,1 人,统稿,审校; Qing <happys...@gmail.com>
> > > 数据准备,1 人,4 页; ding xining <happyjava.den...@gmail.com >
> > > 定义输入输出等, 1 人,4 页; Delin He <beiji...@gmail.com>,
>
> > > 数据分割 1 人, 1 页 统稿,审校 hunterd...@gmail.com
>
> > > 选择变量,加上缺失值处理,1 人,3 页; 天宏 < tianh...@taobao.com>,
> > > 模型,回归、决策树、神经网络,1 人, 4 页; jiangtan...@gmail.com ,


> > > 模型比较、打分、聚类、关联, 1 人,3 页;zw <zw8...@hotmail.com>
>

> > > 要不*Sonic . Jin* 译 前言和后面的结论、致谢等。让阿Q审校。
>
> > > 在07-9-15,Sonic . Jin <sonic...@gmail.com> 写道:


>
> > > > 我就领前言和后面的结论、致谢等吧
>
> > > > Delin he 你具体分一下吧。。。到时候发E-MAIL给我
>
> > > > Computer Department, STKM, BUCT
> > > > Chaoyang District, Beijing, 100029

> > > > Mailto: beiji...@gmail.com
>
> --
> ============================
> Sonic . Jin
> MSN: JX_C...@hotmail.com
> Http://www.MyPlog.cn
> Http://www.Plogcn.com- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Reply all
Reply to author
Forward
0 new messages