PCA好像是把多个原始变量加工成几个复合变量(综合指标),而不是挑选变量。所以多用于科学数据之类的(数值型?)
参见wiki定义
〉在统计学中,主成分分析(principal components analysis
(PCA))
是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征.这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面.但是,这也不是一定的,要视具体应用而定.
只给你一个指标表达- -
衣服对人身体的表达,如果是紧身衣,比如曲线毕露的女性泳装,就是一一对应的函数关系;对宽松的休闲服,身体既显露又遮蔽,两者之间就是相关关系。这时从衣服间接透露的身体姿态,虽然并不具有确定性,却传达了大量信息。还有运动中的衣服条纹,对于身体关节和用力也作了相关表达。再如,成衣厂要合理安排各种型号成衣的生产比例,就需要对市场进行取样调查。人体可以测量的指标很多:身高、手臂长、腿长、颅围、领口围、肩宽、胸围、腰围、臀围、体重等等。在这些指标中,最重要的就是身高和体重,也就是平时描述一个人外貌最重要的两个词汇:高矮和胖瘦。由日常经验可知:手臂长,腿长等都与身高相关,而各种肩宽、身围等指标则与体重相关,以上众多指标都可以简化归结为这两个最关键的指标。特别地,还可以进一步寻找身高与体重之间的相关关系,一个重要的统计公式是:体重
= 身高 -
105,其中体重的单位是公斤,身高的单位是厘米。由此可见,相关关系可以将一个多元复杂的决定关系单元化,这就是抓住主要信息的表达方法。
以上引自表达的探究网站"相关"一章
http://publishblog.blogchina.com/blog/tb.b?diaryID=2111759
身高和体重就是一个人衣服指标的主成分,以上就是所谓的主成分分析法。
1.主成份法不是提取出若干指标来替代全部的指标,而是用指标的线性组合来替代,所以,它不一定能够达到消除指标的目地,但是,如果所有指标的线性组合中没有包含某些指标,当然我们可以认为,这些指标可以从指标组合中间剔除.
2.主成份法研究的是线性的关系,如果一个指标不在主成份中间出现,我们可以认为,他对分析的目标变量没有(线性)贡献,但是不能排除非线性的影响,所以大家在使用的时候还要和业务结合起来,不能简单的排除一个指标
3.关于协方差的解释:它实际上反映了所有的变量二二之间的相关关系
主成分分析有个假设,就事变量间线性相关.如果变量都没有线性相关性或相关性比较低,做主成分分析就没有必要,也可能得不到约简变量个数得目的.
另外特别在一些统计模型中,好多模型(线性,logistic回归)都对高强度线性相关变量敏感,如果包含强相关变量,训练得到得系数可能有偏差.
我觉得有可能将主成分分析用于决策树和神经网络得探测性变量分析,不知是不是可行得方法.
呵呵.我是新人.