衣服对人身体的表达,如果是紧身衣,比如曲线毕露的女性泳装,就是一一对应的函数关系;对宽松的休闲服,身体既显露又遮蔽,两者之间就是相关关系。这时从衣服间接透露的身体姿态,虽然并不具有确定性,却传达了大量信息。还有运动中的衣服条纹,对于身体关节和用力也作了相关表达。再如,成衣厂要合理安排各种型号成衣的生产比例,就需要对市场进行取样调查。人体可以测量的指标很多:身高、手臂长、腿长、颅围、领口围、肩宽、胸围、腰围、臀围、体重等等。在这些指标中,最重要的就是身高和体重,也就是平时描述一个人外貌最重要的两个词汇:高矮和胖瘦。由日常经验可知:手臂长,腿长等都与身高相关,而各种肩宽、身围等指标则与体重相关,以上众多指标都可以简化归结为这两个最关键的指标。特别地,还可以进一步寻找身高与体重之间的相关关系,一个重要的统计公式是:体重= 身高 -105,其中体重的单位是公斤,身高的单位是厘米。由此可见,相关关系可以将一个多元复杂的决定关系单元化,这就是抓住主要信息的表达方法。
这里有一篇文章,讲解而二者的区别的。
__________ Information from ESET Smart Security, version of
virus signature database 3601 (20081110) __________ The message was checked by ESET Smart Security. __________ Information from ESET Smart Security, version of
virus signature database 3602 (20081111) __________ The message was checked by ESET Smart Security.
主成分分析,又称主分量分析、主轴分析,是将多个指标(变量)化为少数几个综合指标的一种统计方法。
把p个变量X1,X2,...,Xp,记为一个p维的随机向量X=(X1,X2,...,Xp),其协方差阵为D(X)。考虑X的线性变换:
Z1=A1*X
Z2=A2*X
......
Zp=Ap*X,
这里的X和A1、A2、...、Ap等都不妨看成向量形式。假如我们想用Z1来代替原来的p个变量,这就要求Z1尽可能多地反映原来p个变量的信息。这里"信息"可以用Z1的方差Var(Z1)来表示,方差Var(Z1)越大,表示Z1包含的信息越多。当然,这需要强加一些数学上的限制,否则Var(Z1)就可能是无限大了,这里的限制是向量A1和它自己的转置之积等于1,记为A1*Trans(A1)=1。就这样:
若存在满足A1*Trans(A1)=1的A1,使得Var(Z1)最大,则称Z1为为第一主成分,或第一主分量,Z1=A1*X。
如果第一主成分不足以代表原来p个变量的绝大部分信息,我们就可以考虑X的第二个线性组合Z2=A2*X。此时,我们要求,已经体现在第一主成分Z1中的信息不要出现在Z2中,即Z1和Z2的协方差Cov(Z1,Z2)=0。就这样:
在Cov(Z1,Z2)=0时,若存在满足A2*Trans(A2)=1的A2,使得Var(Z2)最大,则称Z2为为第二主成分,或第二主分量。
类似我们可以定义X的第三主成分,以致第p主成分(当然,对p维的随机向量X来说,第p主成分就没有必要了)。
直观解释。
从代数上讲,主成分就是p个原始变量的一些特殊的线性组合。
从几何上讲,这些线性组合是把由X1,X2,...,Xp构成的坐标系通过旋转而产生的新坐标系。
------------------------------------------------------------------
主成分到此为止。它不是一个独立的模型,只是一般的变量转换。转说因子分析,这可以当成一个独立的模型来用。
改造一个高惠璇《应用多元统计分析》的例子。比如,一大帮学生的成绩有两个变量,语文成绩x1和数学成绩x2。我们认为这两个变量之间是有相关性的,它们可能都受一个共同的因子的影响,比如智力,或者还都受勤奋因子的影响。这样,每个成绩变量都可以分解成以下两部分:
x=z+q+ei
其中,z是对x1、x2都起作用的公共(智力)因子,q是对x1、x2都起作用的公共(勤奋)因子,ei表示xi特有的因子。加上系数a,上式就可以写成:
X1=a11*Z+a12*Q+a13*E1
X2=a21*Z+a22*Q+a23*E2
看出因子模型与主成分的区别了吗?主成分是把多个变量综合成一个或少数几个综合指标(变量转换),而因子分析则是寻找影响变量的更本质的因子----共性因子(模型构造)。
主成分分析:
就是从若干个因子中找出影响最大的一些因子,显著特点是结果中因子数量多半会减少。
举例:
假设税收总量有增值税、营业税、消费税、城建税、教育附加费五个税种构成(其实远不止,苛税猛于虎啊!)
而其中城建税、教育附加费跟增值税有函数关系,经过主成分分析,系统就只会给出三个主成分:增值税、营业税、消费税。
另外两个税种跟增值税有显著依赖关系,不是主成分,被丢弃了。
因子分析:
同样上面的例子,因子分析对五个税种进行运行后,可能会给出2个因子:
生产因子(增值税、城建税、教育附加费), 消费因子(营业税、消费税)
五个税种全部在,但按因子分了类。
...
江堂 的解释还是挺清晰的。勤奋因子和智力因子是例子中假设的,只是这个例子好像真是没太说清楚。
一般情况下,r型因子分析的每个因子包含若干个变量(外在的)信息,根据这些变量之间的内在联系归纳本质因素,然后给相应因子命名。
比如,原始数据有abcdefg等7个变量,前3个分别是到课率、每周上自习次数和发表论文数。因子分析发现,其中abc可归纳为1个因子,经过“业务”层面的分析认为,abc是共同反映“勤奋”程度,即可将该因子命名为勤奋因子。
From: tt...@googlegroups.com
[mailto:tt...@googlegroups.com] On Behalf Of Qing
Sent: Friday, November 14, 2008 3:04 PM
To: tt...@googlegroups.com
Subject: Re: 解读主成份
江堂,你能再构造一个简单的场景来说明这两者的区别么?
__________ Information from ESET Smart Security, version of
virus signature database 3602 (20081111) __________
The message was checked by ESET Smart Security.
。。。
难道大家都在忽悠吗?
发件人: tt...@googlegroups.com
[mailto:tt...@googlegroups.com] 代表 LiAndy
发送时间: 2008年11月14日 15:50
收件人: tt...@googlegroups.com
主题: Re: 解读主成份
说实话,我真不知道大家在说些什么,可能是'太专业'了。
按照不懂的理解,我想是这样的:这里牵涉到一个因果关系(或者退化说为鸡和蛋的问题),因子分析关注在逻辑中得到一些可能意想不到的因子,而主成分似乎开始就知道,哪些是key point。
而这些似乎都是逻辑上的一个小把戏而已,也就是说,无论哪种方式,如果某种方式在某种情况所占的比例超过一定界限,那么哪种方式就是优良的。
至于如何区分,照目前讨论的情况看,老沈说的没有错。
--
------Crazy in Silence. Silence in Crazy.------
其实,人们到了一定程度以后,书上的东西已经'没用了',大家花点时间都能懂,只是时间的多与少的问题。而关键的是:如何用最少的时间学习更多有意义的东西,这才是重点的。我想,这是应该是大家想听到的。如何把一个难得要死的东西,说得容易的要死,傻子都能明白,那才是能力。
希望我没有得罪人!
不过应用这些方法之前要了解它的前提和假设。
首先它是假设各项指标是平等的。比如奥运,我们是唯金牌数的,只要有牌就行,不管是哪个项目。有些国家的价值观就不一样,老说我们偏短平快的项目。
其次每项指标发展是无限度的。否则要对方法作一些变化,这就有了因子分析法。
不符合这些假设时去用是可能有问题的。但是要知道,限于现有数据来分析,不一定能完成解决问题,需要更多指标或业务介入。特别是,优化目标要事先确定,
并由数据充分必要地反映。