解读主成份

3 views
Skip to first unread message

Qing

unread,
Nov 7, 2008, 12:35:41 AM11/7/08
to tt...@googlegroups.com
在group里面查找,找到了那篇关于主成份的帖子 ,是两年前11月份的时候。余山师傅给出一个比喻。那次,我搞不明白主成份到底怎么用。在各位的帮助下,我稍稍明白了一些。然而,稍稍明白,和进一步明白有时候差距挺大的。最近一次分析中,实际接触到主成份,发现,他具备一种简单的形式,所以进一步搞清楚了些,跟上次那封帖子的距离是两年的时间。
 
我试图用一种比较简单的语言去解释主成份能够带来什么,其实这点余山已经说过,他用的是身材的比喻:

衣服对人身体的表达,如果是紧身衣,比如曲线毕露的女性泳装,就是一一对应的函数关系;对宽松的休闲服,身体既显露又遮蔽,两者之间就是相关关系。这时从衣服间接透露的身体姿态,虽然并不具有确定性,却传达了大量信息。还有运动中的衣服条纹,对于身体关节和用力也作了相关表达。再如,成衣厂要合理安排各种型号成衣的生产比例,就需要对市场进行取样调查。人体可以测量的指标很多:身高、手臂长、腿长、颅围、领口围、肩宽、胸围、腰围、臀围、体重等等。在这些指标中,最重要的就是身高和体重,也就是平时描述一个人外貌最重要的两个词汇:高矮和胖瘦。由日常经验可知:手臂长,腿长等都与身高相关,而各种肩宽、身围等指标则与体重相关,以上众多指标都可以简化归结为这两个最关键的指标。特别地,还可以进一步寻找身高与体重之间的相关关系,一个重要的统计公式是:体重= 身高 -105,其中体重的单位是公斤,身高的单位是厘米。由此可见,相关关系可以将一个多元复杂的决定关系单元化,这就是抓住主要信息的表达方法。
 
当时的理解,是"抓住重点",认为主成份可以让我们抓住重点,能够确定那个因素更加重要。这是两年前的理解。
 
最近的这次解读,我发现"抓住重点"不够准确,应当是"从若干因素中,找到代表性的主要因素。这些因素之间是不怎么相关的。",这个意思,在余山两年前的解释中已经提到,但那时候没怎么注意。这两者看着有点相似,但还是有点区别。拿个例子来说明一下。
 
拿上面身材的例子。比如我们要衡量一个人身材是否"标准",这是我们的分析目标,于是搜集了1000个人的身材数据,每个人,测量他的身高、体重、脑围、脖围、胸围、大腿围、小腿围、手长、腿长、蛋长….等等,共108项指标。这个数量够多,为了简化,更容易用自然语言去衡量标准身材的因素。可以用主成份的方法,对着108项指标合成人们可以理解的因素数量,比如,5个。当然,这5个因素都是什么名字,还需要解读。主成份给出如下结果的表格,列,是得出的4个主成份。行上,是原来考虑的若干变量。而具体每个单元格的数值,表示了…表示了因子跟那些变量的相关程度。

 
于是,这个表格可以如此解释:四个主成份,F1的代表性最突出,他代表了V4/V6/V7三个变量,F2代表了V1和V2,以此类推。显然,要看绝对值比较大的那些值,负数,则表示有反作用。
 
这样解读很有好处,就是能够用业务术语,来命名主成份,在业务层面很容易理解。比如有两个变量,通话时长和通话次数,这两个变量很可能归入到同一个主成份,那么这个主成份可以叫做"通话量",而要对这个名称进行详细解读的话,可以说,他是主要由那两个变量构成的。这个思路挺清晰了。
 
但还有问题。
1、  这是我自以为是的解读方法,其他人有没有类似的经验?
2、  这纯粹是从数据之间的联系找出主成份?是否隐含地存在一个假设——那些变量,是真的对目标(比如标准身材)是有影响的。如果输入一个确实很无关的变量,比如智商对身材可能影响甚小,但如果放在一起进行主成份分析,它跟身高、体重确实也没啥相关性,从而也作为一个主成份存在了。
3、  得出主成份之后,如何判定那个成分对目标的影响权重是多少呢?

Qing

unread,
Nov 11, 2008, 12:59:42 AM11/11/08
to tt...@googlegroups.com
上次说主成份解读还有些问题没考虑清楚,这不,很快就有了机会去深入一步了解。

话说年底的时候,都是总结汇报的时候,把一年的工作包装包装,突出亮点,显示成绩。我们自己的工作汇报到不需要如此,但需要帮助客户完成这种任务。每年年底的时候都得来一次,年经。不光是汇报,还要全国范围内案例评比,于是风声鹤唳。这种评比,设一等奖若干,一等奖内部还有名词之分。这边领导的态度是,如果我们拿不到一等奖的第一名,就是失败。唉,干嘛对自己有这么高的要求呢,累了自己,也累了别人。当然,这里的别人指的就是我们这些服务商。

这些服务商没什么其他本事,平时总是嫌弃没有什么价值体现,"你们的应用究竟有什么效益啊?"因此,只有在这种时候表现一下,没有功劳也得体现苦劳。写ppt吧,还得加班写才更苦。不过大家也都知道,ppt不是最重要的,可少了它也不行。于是有人抱怨,"这事儿有啥意义啊?"这事儿,不谈意义。大家也都知道,那些ppt里面很多东西都是虚的,甚至是停留在脑子里面的想法,没有任何实际东西。但只要你敢说,他们就敢信。

我都有些麻木了,来就来呗,反正无中生有的事情已经轻车熟路。上周,被客户叫过去说这事情,说集团总部那边已经定下今年怎么PK法,去年的总部统一应用范围,报三个案例,今年的报三个,重点应用报两个,还有其他自己特色的应用,不限个数。有统一范围的,不必讨论,写吧。关键是那些本地特色的,不限个数,是很没谱的事情。讨价还价,左后定下10个案例,重点写5个。数目太多,让市公司也帮忙写,但就这样,我们也领了12个案例。还好,时间上面不算太紧张,还有一周半的时间。

于是,召集了其个人,分了工,约定一天后的下午讨论提纲,提纲基本就能决定案例的质量。

大家分头准备,不急不忙。提纲讨论会是一种头脑风暴会,要大家一起来想想一个案例应该突出什么,应该提高到什么样的理论高度,应该如何评估效果。不亦乐乎,到也有些闪光的点子,很奇怪为什么在当初开始那个应用的时候没有想到呢(因为开始一个应用的时候,不会有这种头脑风暴)。

这时,电话响了,客户的电话。他告诉我,评比方法有变。现在规定每个省只能报两到三个。哈,我心窃喜。但接着他又说,"不过,时间上有点紧张,下周一就得报上去...案例主要报xx和yy..."我心顿时凉了半截,因为这几个应用正好都是我负责的,而这个时间...看来要加班了。不过还好,对方还算义气,说,先让市公司准备着,到时候你们修改,要求他们周六前初稿,周日搞定,周一讨论...当时是周四。

挂了电话,心情很沉重。会议室里面其他人似乎已经察觉出除了状况,看着我。

我说,一个好消息一个坏消息,你们先听哪个?
坏消息。
坏消息是,这些ppt下周一前就得搞定。
那么好消息呢?
你们的案例暂时都不用上报了。

全场哗然,像是过节一般,大家要不出去倒茶,要不去上厕所,剩下我独自郁闷。这种郁闷主要是由于不平衡引起的。

周日搞了一天,完成了初稿,昨天拿去讨论,又是一天,到晚上十一点多,才弄完。其实那时候说完成也不确切,只是大家已经没有心情去折腾了。别以为写ppt是项轻松的工作啊,可费脑子了。你得琢磨如何表达,才能忽悠得住人。上午的时候,大家还有点兴致,谈了不少想法。下午不行了,三个人脑袋像是装了浆糊,转不动。盯着一个页面,该怎么写啊...该怎么写啊...

好歹中间还穿插了别的东西,讨论起来,大家恢复了点HP值。

这东西就是主成份。

有一篇案例,市公司提供过来的时候,列出了很多研究方法,确实很多,让我看了都不太好意思。这个案例其实还没有完成,主要是要对渠道进行多指标评价。这位作者胆子很大,将聚类、层次分析、因子分析、熵值法、平衡计分卡、时间序列奇异点判断,甚至还有OLAP,恐怕那些页面都是从我们的一些培训材料里面摘出来的。可是这些方法之间的关系是什么呢,没有逻辑。一狠心,将一些页面都删了,保留因子分析、熵值法和层次分析法。除了因子分析,我知道个大概是什么玩意儿,其他两个都不算太清楚,但看上去,综合运用这三个方法还是说得过去的。

不过也仅仅是说得过去而已,另外还有一位,可能他是要讲解这份ppt的,看着这几页,傻了。上面有一堆术语,更折磨人的是公式,我想,将公式贴出来也就是唬唬人而已么。但这位就怕到时候有人切他的嫩鸡,要搞明白。问我怎么解释。我说我不知道具体的,只知道因子分析法是干什么的,熵值法不知道是什么,甚至,我连熵都不知道是什么。旁边还有位,可能研究过这玩意儿,说熵代表了一种确定性的程度。这个解释也没有将我们从晕眩中解脱出来。

我们确实是在寻找一种解释,要说的通。后来,我想起上周说主成份是遗留的问题,就是确定了主成份之后,权重如何确定?于是,我给出了这样的解释:

因子分析法是从若干因素中找出代表性的少量因素,而熵值法,就是确定这些因素的权重。

这么解释似乎还挺符合逻辑(但不知道对不对啊!)。客户又切,那权重已经确定了,为什么还要专家评分,然后来进行层次分析法呢?

这个...我一开始说,主观跟客观评估相结合,可这种说法实在太虚。后来又想到一种解释:因子分析、熵值法都是从数据本身来判定的,其实他不能判定这些因素对目标业务上的影响,而只能判断数据表现上的影响而已。而主观的专家打分,可以基于因子分析得到的主要因素进行评分,从而得到业务上的影响。最后两两种指标权重做个折中,比如平均,就是最后的权重。

嗯,这个说法挺圆的,几乎把我自己说服了,后来愈发坚定地认为,就是应该这么干。不知道他们二位是否认同这种说辞,但没办法,他们知道我搞不明白,现编的。可是如果他们不知道我不明白,会不会相信呢?或者,我这种说法根本就是可行的呢?这几个问题还有待日后再验证了。不过借此机会,还是要表达一下对这些方法的抱怨。很少看到对分析方法能够给我们带来什么有个通俗的讲解,如果综合几种方法,他们是用什么逻辑达到一个目标的?分析方法的输入输出得清楚点才行。

有一篇讲解因子分析和熵值法在股市财务分析中的应用,还算比较简短,但也充斥了不少公式。

为这个问题操了半天心,大伙儿劲头恢复了点。看来再长时间的一种大脑活动状态之外,有必要来点不一样的思维来调剂一下。

这次讨论让我找到了一种解释,即便是没有得到确认也是好的,但也多了个疑问:主成份跟因子分析是不是同一个东西,只是名字不同?

2008/11/7 Qing <happ...@gmail.com>
在group里面查找,找到了那篇关于主成份的帖子 ,是两年前11月份的时候。。。

huwanli

unread,
Nov 11, 2008, 8:05:33 PM11/11/08
to tt...@googlegroups.com

这里有一篇文章,讲解而二者的区别的。


 

__________ Information from ESET Smart Security, version of virus signature database 3601 (20081110) __________

 

The message was checked by ESET Smart Security.

 

http://www.eset.com

 

__________ Information from ESET Smart Security, version of virus signature database 3602 (20081111) __________

 

The message was checked by ESET Smart Security.

 

http://www.eset.com



__________ Information from ESET Smart Security, version of virus signature database 3602 (20081111) __________

The message was checked by ESET Smart Security.

http://www.eset.com
主成分分析与因子分析的异同和SPSS软件.PDF

Qing

unread,
Nov 13, 2008, 12:46:26 AM11/13/08
to tt...@googlegroups.com
谢谢huwanli!

我看了一下,试图理解一下两者差异,不过我看不明白,只能最大限度来表述一下感觉:
1、主成分(到底是主成份还是主成分?)分析跟因子分析确实是有区别的。名字上就有区别,英文名字,前者叫做Principal Component Analysis,后者叫做Factor Analysis。
2、这两者确实是容易混淆的,至少有两个人被作者认为是用错了,将因子分析当作是主成分分析了。
3、他们都是用来从若干因素里面找到代表性因素的方法(代表性因素是不相关的)。
4、两者分析得出的结果,大体解读方法相同。都是看一个成分(或因子)是由哪些主要变量构成的。
5、但对成分跟主要变量的相关系数解读不同,因为他们应用的侧重点不同。

我最关心第五点,应用侧重点不同。对于两者的中间过程,我看不下去。

对于应用侧重点,作者的解释是:
1、主成分分析主要用来解决"信息贡献影响力综合评价"问题;
2、因子分析主要用来解决"成因清晰性的综合评价"问题;

可惜,作者没有对这块进行展开,所以看不出这两者到底有什么区别,举个例子也好啊。

于是我猜着,是这么解释:
1、主成份分析得到的结果,比如一个成分,跟a、b、c三个变量很相关,那就可以解释成:a、b、c是构成这个成分的主要部分。而一个不怎么相关的d变量,他对这个成分就是不重要的。
2、因子分析得到接的结果,比如一个因子,跟a、b、c三个变量很相关,可以解释成:a、b、c在数据上面有足够的数据来描述这个因子,而一个不怎么相关的d变量,不能说他对该因子不重要,只能说,没有足够的证据表明重要性。

这样解读对不对呢?我自己是觉得有问题的,希望有明白的人来解释一下。

如果按照上面的解释,我当然希望最后能够得到主成分的结果,因为能够得到所有重要的变量。然而,不管是主成分还是因子,恐怕都面临另一个问题。既然他们都没有目标变量,都是仅仅纯数字上的分析,那么最终的结果必定是依赖输入的变量的。比如我要是评价"健康",得输入一些确实跟"健康"相关的变量,否则,会得出一些莫名其妙的成分或因子。当然,这是另一个问题,先解决两者区别的问题再说。

2008/11/12 huwanli <huw...@gmail.com>

这里有一篇文章,讲解而二者的区别的。

 ...

Jiangtang Hu

unread,
Nov 13, 2008, 1:58:16 AM11/13/08
to tt...@googlegroups.com
以前写过一个读书笔记,但愿对大家理解主成分有帮助(附SAS代码):
 

主成分分析,又称主分量分析、主轴分析,是将多个指标(变量)化为少数几个综合指标的一种统计方法。
把p个变量X1,X2,...,Xp,记为一个p维的随机向量X=(X1,X2,...,Xp),其协方差阵为D(X)。考虑X的线性变换:


Z1=A1*X
Z2=A2*X
......
Zp=Ap*X,


这里的X和A1、A2、...、Ap等都不妨看成向量形式。假如我们想用Z1来代替原来的p个变量,这就要求Z1尽可能多地反映原来p个变量的信息。这里"信息"可以用Z1的方差Var(Z1)来表示,方差Var(Z1)越大,表示Z1包含的信息越多。当然,这需要强加一些数学上的限制,否则Var(Z1)就可能是无限大了,这里的限制是向量A1和它自己的转置之积等于1,记为A1*Trans(A1)=1。就这样:


         若存在满足A1*Trans(A1)=1的A1,使得Var(Z1)最大,则称Z1为为第一主成分,或第一主分量,Z1=A1*X。


如果第一主成分不足以代表原来p个变量的绝大部分信息,我们就可以考虑X的第二个线性组合Z2=A2*X。此时,我们要求,已经体现在第一主成分Z1中的信息不要出现在Z2中,即Z1和Z2的协方差Cov(Z1,Z2)=0。就这样:


          在Cov(Z1,Z2)=0时,若存在满足A2*Trans(A2)=1的A2,使得Var(Z2)最大,则称Z2为为第二主成分,或第二主分量。


类似我们可以定义X的第三主成分,以致第p主成分(当然,对p维的随机向量X来说,第p主成分就没有必要了)。


直观解释。

从代数上讲,主成分就是p个原始变量的一些特殊的线性组合。
从几何上讲,这些线性组合是把由X1,X2,...,Xp构成的坐标系通过旋转而产生的新坐标系。

------------------------------------------------------------------

主成分到此为止。它不是一个独立的模型,只是一般的变量转换。转说因子分析,这可以当成一个独立的模型来用。

改造一个高惠璇《应用多元统计分析》的例子。比如,一大帮学生的成绩有两个变量,语文成绩x1和数学成绩x2。我们认为这两个变量之间是有相关性的,它们可能都受一个共同的因子的影响,比如智力,或者还都受勤奋因子的影响。这样,每个成绩变量都可以分解成以下两部分:

x=z+q+ei

其中,z是对x1、x2都起作用的公共(智力)因子,q是对x1、x2都起作用的公共(勤奋)因子,ei表示xi特有的因子。加上系数a,上式就可以写成:

X1=a11*Z+a12*Q+a13*E1
X2=a21*Z+a22*Q+a23*E2


看出因子模型与主成分的区别了吗?主成分是把多个变量综合成一个或少数几个综合指标(变量转换),而因子分析则是寻找影响变量的更本质的因子----共性因子(模型构造)。

------------------------------
胡江堂
北京大学软件与微电子学院06级硕
Jiang...@gmail.com
生活博客(读书、见闻): http://panshanghu.spaces.live.com
技术博客(SAS、数据挖掘、数量金融):http://johnthu.spaces.live.com

老沈

unread,
Nov 13, 2008, 4:29:02 AM11/13/08
to ttnn BI 观点
看了各位老大的高论,本人是云里雾里。总感觉是简单的问题被越说越高深,越说越玄乎。

我不懂理论,斗胆通过实例,说说直白的理解吧。

主成分分析:
就是从若干个因子中找出影响最大的一些因子,显著特点是结果中因子数量多半会减少。
举例:
假设税收总量有增值税、营业税、消费税、城建税、教育附加费五个税种构成(其实远不止,苛税猛于虎啊!)
而其中城建税、教育附加费跟增值税有函数关系,经过主成分分析,系统就只会给出三个主成分:增值税、营业税、消费税。
另外两个税种跟增值税有显著依赖关系,不是主成分,被丢弃了。

因子分析:
同样上面的例子,因子分析对五个税种进行运行后,可能会给出2个因子:
生产因子(增值税、城建税、教育附加费), 消费因子(营业税、消费税)
五个税种全部在,但按因子分了类。

Jiangtang Hu

unread,
Nov 13, 2008, 4:33:55 AM11/13/08
to tt...@googlegroups.com
主成分不能这么理解啊。增值税、营业税、消费税、城建税、教育附加费五个税种,主成分是找出几个主成分(主分量),可以表示成这几个税种的线性组合,从而最大限度地捕捉这5个税种的信息。

老沈

unread,
Nov 13, 2008, 4:48:17 AM11/13/08
to ttnn BI 观点
Jiangtang Hu还是高啊。

不过我还是觉得既然是主成分分析,就是要分析出分量集中重要的几个分量,线性组合还是分量集中的元素吗?
请赐教。

看来我还是要去看大部头的数理统计,肯定是相当枯燥。

Qing

unread,
Nov 14, 2008, 12:20:30 AM11/14/08
to tt...@googlegroups.com
老沈这个说法很直观,但对不对呢?还有没有高手来说说?

按照老沈的观点:
  • 主成分是从若干因素里面,舍弃一些不重要因素,留下的重要因素仅仅反映了它本身;
  • 因子分析是从若干因素里面,将某些因素综合成一个重要因素;

这跟上面huwanli给出的那份文档中解释的有些不一样。

2008/11/13 老沈 <zls...@sina.com>
..

主成分分析:
就是从若干个因子中找出影响最大的一些因子,显著特点是结果中因子数量多半会减少。
举例:
假设税收总量有增值税、营业税、消费税、城建税、教育附加费五个税种构成(其实远不止,苛税猛于虎啊!)
而其中城建税、教育附加费跟增值税有函数关系,经过主成分分析,系统就只会给出三个主成分:增值税、营业税、消费税。
另外两个税种跟增值税有显著依赖关系,不是主成分,被丢弃了。

因子分析:
同样上面的例子,因子分析对五个税种进行运行后,可能会给出2个因子:
生产因子(增值税、城建税、教育附加费), 消费因子(营业税、消费税)
五个税种全部在,但按因子分了类。
...

raullew

unread,
Nov 14, 2008, 12:53:48 AM11/14/08
to ttnn BI 观点
主成分分析是把原始变量组合为新变量
因子分析是把原始变量用新变量组合的方式来表示

On 11月14日, 下午1时20分, Qing <happys...@gmail.com> wrote:
> 老沈这个说法很直观,但对不对呢?还有没有高手来说说?
> 按照老沈的观点:
>
> - 主成分是从若干因素里面,舍弃一些不重要因素,留下的重要因素仅仅反映了它本身;
> - 因子分析是从若干因素里面,将某些因素综合成一个重要因素;
>
> 这跟上面huwanli给出的那份文档中解释的有些不一样。
>
> 2008/11/13 老沈 <zls...@sina.com>
>
>
>
> > ..
> > 主成分分析:
> > 就是从若干个因子中找出影响最大的一些因子,显著特点是结果中因子数量多半会减少。
> > 举例:
> > 假设税收总量有增值税、营业税、消费税、城建税、教育附加费五个税种构成(其实远不止,苛税猛于虎啊!)
> > 而其中城建税、教育附加费跟增值税有函数关系,经过主成分分析,系统就只会给出三个主成分:增值税、营业税、消费税。
> > 另外两个税种跟增值税有显著依赖关系,不是主成分,被丢弃了。
>
> > 因子分析:
> > 同样上面的例子,因子分析对五个税种进行运行后,可能会给出2个因子:
> > 生产因子(增值税、城建税、教育附加费), 消费因子(营业税、消费税)
> > 五个税种全部在,但按因子分了类。
> > ...- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Qing

unread,
Nov 14, 2008, 12:55:46 AM11/14/08
to tt...@googlegroups.com
你是在说绕口令么

2008/11/14 raullew <rau...@hotmail.com>
主成分分析是把原始变量组合为新变量
因子分析是把原始变量用新变量组合的方式来表示
。。

George Zhang

unread,
Nov 14, 2008, 1:41:06 AM11/14/08
to tt...@googlegroups.com
这个说法应该是对的
主成份是原来变量在新维度的组合,用以达到最大的方差,就是把数据最大限度的区分开

因子分析是把影响结果的因素统一为几个新的因子,用以发现原有因子间的关联,解释因子对应变量的影响

因子分析是主成份的推广和发展

2008/11/14 Qing <happ...@gmail.com>



--
Best Regard
George Zhang

Hu, Jiangtang

unread,
Nov 14, 2008, 1:45:03 AM11/14/08
to tt...@googlegroups.com
这个说法没问题。

这不会很绕吧?


2008/11/14 raullew <rau...@hotmail.com>

Qing

unread,
Nov 14, 2008, 2:03:39 AM11/14/08
to tt...@googlegroups.com
江堂,你能再构造一个简单的场景来说明这两者的区别么?

老沈的场景很简单,但后来才看到你说他错了。而你一开始的读书笔记里面的例子,还是有点复杂,比如因子分析里面,那个勤奋因子和智力因子从哪儿冒来的?

2008/11/14 Hu, Jiangtang <jiang...@gmail.com>
这个说法没问题。

老沈

unread,
Nov 14, 2008, 2:03:47 AM11/14/08
to ttnn BI 观点
学问看来还是越玄越高深啊。

据我所知,主成分很明显的一个特征是可能降维。(当然各变量都是相对独立的话,则无法降维)

再举个例子:
你要跟我说明你个人的收支情况,其中有薪水收入和个税两个变量。
大家知道月薪和个税是有函数关系的,属于强关联。
那么你只需告诉我你的月薪很高就行了,再告诉我个税也很高就是废话。

对个人收支情况而言,月薪就是一个主成分,而经过降维后,个税被丢弃了,就不是主成分。

huwanli

unread,
Nov 14, 2008, 2:23:36 AM11/14/08
to tt...@googlegroups.com

江堂 的解释还是挺清晰的。勤奋因子和智力因子是例子中假设的,只是这个例子好像真是没太说清楚。

一般情况下,r型因子分析的每个因子包含若干个变量(外在的)信息,根据这些变量之间的内在联系归纳本质因素,然后给相应因子命名。

比如,原始数据有abcdefg7个变量,前3个分别是到课率、每周上自习次数和发表论文数。因子分析发现,其中abc可归纳为1个因子,经过“业务”层面的分析认为,abc是共同反映“勤奋”程度,即可将该因子命名为勤奋因子。

 

From: tt...@googlegroups.com [mailto:tt...@googlegroups.com] On Behalf Of Qing
Sent: Friday, November 14, 2008 3:04 PM
To: tt...@googlegroups.com
Subject: Re:
解读主成份

 

江堂,你能再构造一个简单的场景来说明这两者的区别么?


 

__________ Information from ESET Smart Security, version of virus signature database 3602 (20081111) __________

 

The message was checked by ESET Smart Security.

 

http://www.eset.com

老沈

unread,
Nov 14, 2008, 2:28:26 AM11/14/08
to ttnn BI 观点
看来大家是各表一处啊。

Huwanli说的跟上面举的例子“生产因子”、“消费因子”是一会事啊。这个是因子分析,观点一致。

我上一贴说的是主成分分析。

这次讨论的根本就是要说明主成分分析和因子分析的差异。

Qing

unread,
Nov 14, 2008, 2:35:23 AM11/14/08
to tt...@googlegroups.com
按照这个说法,因子分析岂不是跟主成分一样了?按照江堂和george赞同raullew的,是"从原始变量组合成新变量"。

2008/11/14 huwanli <huw...@gmail.com>

。。

 。。。

raullew

unread,
Nov 14, 2008, 2:41:53 AM11/14/08
to ttnn BI 观点
两者"从。。。组合成。。。"的方向相反

On 11月14日, 下午3时35分, Qing <happys...@gmail.com> wrote:
> 按照这个说法,因子分析岂不是跟主成分一样了?按照江堂和george赞同raullew的,是"从原始变量组合成新变量"。
>
> 2008/11/14 huwanli <huwa...@gmail.com>
>
>
>
> > 。。
>
> > 比如,原始数据有abcdefg等7个变量,前3个分别是到课率、每周上自习次数和发表论文数。因子分析发现,其中abc可归纳为1
> > 个因子,经过"业务"层面的分析认为,abc是共同反映"勤奋"程度,即可将该因子命名为勤奋因子。
>
> > 。。。- 隐藏被引用文字 -
>
> - 显示引用的文字 -

老沈

unread,
Nov 14, 2008, 2:45:31 AM11/14/08
to ttnn BI 观点
从形式上看:
主成分分析一般会有降维,也就是从一堆变量中去除那些非主成分变量,余下的变量一般是原变量集的子集,但被认为足以反应某个事件。

因子分析一般是根据关联程度把变量分组,然后每个分组抽象为一新的派生变量,就如上帖说的勤奋因子和智力因子。因子分析的输出肯定是新元素集,而不是原
变量的子集。

或则说因子分析是抽象,主成分分析是筛选!
Message has been deleted

jun.sky

unread,
Nov 14, 2008, 2:53:35 AM11/14/08
to tt...@googlegroups.com

难道大家都在忽悠吗?

 


发件人: tt...@googlegroups.com [mailto:tt...@googlegroups.com] 代表 LiAndy
发送时间: 2008年11月14 15:50
收件人: tt...@googlegroups.com
主题: Re: 解读主成份

 

说实话,我真不知道大家在说些什么,可能是'太专业'了。

按照不懂的理解,我想是这样的:这里牵涉到一个因果关系(或者退化说为鸡和蛋的问题),因子分析关注在逻辑中得到一些可能意想不到的因子,而主成分似乎开始就知道,哪些是key point

而这些似乎都是逻辑上的一个小把戏而已,也就是说,无论哪种方式,如果某种方式在某种情况所占的比例超过一定界限,那么哪种方式就是优良的。

 

至于如何区分,照目前讨论的情况看,老沈说的没有错。

--
------Crazy in Silence. Silence in Crazy.------


Qing

unread,
Nov 14, 2008, 2:59:13 AM11/14/08
to tt...@googlegroups.com
我想问问老沈和raullew,现在好像剩下你们两位代表性的解释不同了,请问你们认为其实对方跟自己说的其实是一样的吗?

我理解二位说的不一样,raullew的说法,赞同者有江堂、george:
主成分:从原始变量组合成若干新变量;
因子分析:原始变量可以由新变量组成;


老沈的说法,赞同者有LiAndy:
主成分:从原始变量中舍弃一些变量,得到可以代表那些被舍弃变量的变量;
因子分析:将原始变量组合成若干派生变量;

听起来,老沈说的因子分析跟raullew说的主成分是一样的。


2008/11/14 LiAndy <netcl...@gmail.com>
。。
至于如何区分,照目前讨论的情况看,老沈说的没有错。
。。

老沈

unread,
Nov 14, 2008, 3:00:53 AM11/14/08
to ttnn BI 观点
我也纳闷啊,一堆数据挖掘高手,怎么这样一个问题被说得玄之又玄乎啊。

我只是一个做BI产品软件的IT人,没啃过数理统计数据挖掘经典,只是从应用角度理解这些分析方法,而实现多半是借助成熟的开发包。我一知半解连自己都
原谅。

据我所知这里很多老大是数理统计数据挖掘的科班,大家别光研究理论,还请多联系实际啊。

用浅显简单的语言叙述复杂问题是一种美。

George Zhang

unread,
Nov 14, 2008, 3:07:10 AM11/14/08
to tt...@googlegroups.com
主成份的用处是可以用来降维的
因为分析结果一方面将原始变量组合,另一方面评估各个组合对数据的重要程度

比如前两个主成份对数据的影响有90%,那么其他的主成份就不用看了
那再回过头来看这两个留下来的主成份,其实是由原始的数据变量组成的

可见BI有时候忽略了对统计理论的解读啊

2008/11/14 Qing <happ...@gmail.com>

Hu, Jiangtang

unread,
Nov 14, 2008, 3:17:18 AM11/14/08
to tt...@googlegroups.com
这个问题,不是谁的理解好,谁的理解不好,多元统计的书上都写着。看看形式上的,假设3个变量X1,X2,X3,记为一个3维的随机向量X=(X1,X2,X3)。下面的Z是主成分,A是系数:

Z1=A1*X
Z2=A2*X
……
Zp=Ap*X,

如果认为上面3个变量的信息可以用一个变量概况,就取第一主成分Z1;如果觉得要用两个,就加上Z2。3个变量,就不需要3个主成分了。主成分分析就纯粹是为了减少变量个数,降维。因为,比如一个主成份就可以代表3个X,接下来的分析就可以用Z1取代X1,X2,X3。

再说因子。还是上面三个变量,假如认为它们都受某个因素影响,记为Q,则每个变量都可以分解成

X1=Q+E1
X2=Q+E2
X3=Q+E3

Q是共同因子,Ei是只跟某个Xi有关的特殊部分(不好解释的部分)。因子分析是一个建模过程,提取出因子就是建模的过程。



胡江堂
北京大学软件与微电子学院06级硕
Jiang...@gmail.com
生活博客(读书、见闻): http://PanshangHu.spaces.live.com/
技术博客(SAS、数据挖掘、金融计算): http://JohntHu.spaces.live.com






Message has been deleted

Hu, Jiangtang

unread,
Nov 14, 2008, 10:12:31 PM11/14/08
to tt...@googlegroups.com

呵呵,但恐怕这里的情形是,我们大伙都没时间哪怕是瞄一眼教科书上的表达。在基本概念上我们有共识,就没有那么多绕来绕去的口舌了。


2008/11/15 LiAndy <netcl...@gmail.com>
其实,人们到了一定程度以后,书上的东西已经'没用了',大家花点时间都能懂,只是时间的多与少的问题。而关键的是:如何用最少的时间学习更多有意义的东西,这才是重点的。
我想,这是应该是大家想听到的。
 
如何把一个难得要死的东西,说得容易的要死,傻子都能明白,那才是能力。
希望我没有得罪人!
Message has been deleted

Qing

unread,
Nov 17, 2008, 1:19:23 AM11/17/08
to tt...@googlegroups.com
上周五的时候,我又跟我们项目组的同时请教了一把,发现这个问题其实是个存在已经的问题。也许在方法层面,他们的区分已经明确,但因为用途的类似,导致很多人对他们二者的区别很模糊。所以,我们上面的讨论其实很多并没有一个相同的语境。事物有体用之分,也可以说内外吧。有人是在"体"的层面探讨二者的不同,而有些是期望在"用"上找到差异。而经过多方请教,我现在认为,在"体"方面,江堂、raullew给出的解释没错,而老沈说的主成分"选择代表性变量而舍弃不具代表性变量"好像并不是如此。

而在"用"方面,我还是不太明白二者的究竟差异。我问了好几个人他们分别用在什么场合,很少有人能说的清楚。后来,我隐隐约约觉得,其实两者的功用几乎是一样的,都是从众多因素中找到主要因素,而差别可能是在于效果的好坏。

为此,我编了如下一个场景,来说明我对主成分分析跟因子分析差异的理解。

--
从前,有一个学校,要评三好学生。

校长召集老师开会商议此时,说,这次我们一定要客观地评选,要看实际成绩,要德智体全面发展。不要发生去年那样的事情,一个学生的家长,送了两瓶茅台,结果不让他儿子上都不行。这次,要绝对客观、量化地评比,找我也不行,完全看实际数字。你们去研究研究,看怎么搞。

几位资深老师组建了评委会,回去商量了三天,没想出法子,正发愁呢。门外走进了新来的数学老师,胡老师,他年纪还轻,所以这次没叫他讨论。不过这两天每次经过门口都听他们在说这事儿,都觉得好笑死了。他说,各位前辈,这事儿挺简单的,抽取学生的一些成绩,然后运用统计的方法综合评价,看谁的分数高谁当三好学生。

评委会头头李老师问,那么考虑哪些成绩呢?

胡老师说,既然要德智体,那就每项找一些代表性成绩呗。

评委会老师们一合计,决定采用思想品德、劳动、语文、英语、美术、体育。

不过李老师认为用六门课来衡量啊,有点多,而且想美术这种,到底代表哪方面还不好说。

胡老师想想,说,放心,有办法。可以用一些降维的方法来简化一下。

李老师问,什么叫降维?

胡老师回答,降维就是简化。

李老师很郁闷地说,说了等于没说,得,你去降吧。

胡老师回去后,搜集了500个学生这学期的成绩,开始降维。他在统计工具里面,看到有个图标,叫"因子分析",嗯,就是他了。得~得~得,一会儿就得出三个因子,每个因子跟那六个值的相关性列了出来:

              因子1    因子 2   因子3
思想品德 0.1       0.8      0.02
劳动       0.08      0.9      0.2
语文       0.8       0.1      0.1
英语       0.9       0.15     0.3
美术       0.1       0.7      0.1
体育       0.2       0.1      0.9

哈,胡老师听高兴,这些因子每个都代表了六个成绩的某一方面的成分。成分1就是"智",成分2,就是"德",成分3,就是"体"。胡老师很高兴,太顺利了,结论很明显。第二天便拿到李老师那里,你看,思想品德、劳动和美术成绩可以合成德育分数,语文、英语可以合成智力分数,体育就可以单单代表体育分数。

李老师问,你的意思是说,用思想品德、劳动和美术来合成德育分数,其他几个就不必考虑了是吧?

胡老师迟疑了一下,回答,呃,也不能这么说,其实严谨一点说,德育分数是这六项的组合,只是这三门课的成绩更加显著而已。他们是一种...如此这般…如此这般的..函数关系..

李老师有些晕,说,就说这三门课代表德育,怎么算我不管了,到时候我就跟校长这么说,这种说法没什么问题吧?

李老师走了,去校长那里汇报进度。剩下胡老师在琢磨如何进行下一步权重的判断。

旁边,还有另一位数学教研室的同事,沈老师,因为太老,不是评委会成员。但刚才听了半天,瞅了一眼胡老师的分析结果。觉得有点不对劲儿。

于是说,小胡啊,你刚才那个解释值得商榷啊!

胡老师有些不高兴,怎么不对了?

沈老师说,你这用的什么方法分析的?是因子分析吧。

胡老师说,是啊。

沈老师说,那就不能说德育分数是思想品德、劳动和美术成绩构成的,因为那是主成分的解释。这里用因子分析,只能说,思想品德成绩,是主要由于因子2造成的,因子1和因子3的作用很小。

胡老师反问,那因子2是什么呢?

沈老师想了想,从这个结论看,因子2可以解释成德育水平。

胡老师大笑,哈哈哈,那你不是跟我的结论一样的么?

沈老师严肃地说,虽然对这个因子有同样的解释,但他们的计算不同。你刚才说,从三门课可以综合算出德育分。不对,他们不存在这种关系,如果要那样的结果,得用主成分分析才是。

胡老师无语凝噎,想想,不大服气,说,你这样说太教条了,一个主成分是由品德、劳动和美术构成的,综合看三个变量名称,所以将这个成分命名为德育分。而因子,说品德成绩、劳动、和美术都是主要由某个因子造成的,那么这个因子不也是可以解释成德育分么?这有什么不一样呢?

沈老师赶紧退后半步,打了个哈哈,呵呵,别急别急,你说的也没错,都可以这样解释,只不过在计算因子和主成分那个值的时候,有些差别而已,确实也没什么太大问题。呵呵,呵呵,我去吃饭了,你慢慢忙。

yus...@gmail.com

unread,
Nov 17, 2008, 9:21:16 PM11/17/08
to ttnn BI 观点
也给一个例子:
兄弟姐妹十个人,它们长相应该有许多相似之处,因子分解应该是父母,两个因子(假设夫妻的长相是独立无关的)是孩子的共同因素。
假设一个孩子的长相,总是继承了家族中某个人的特点,除了父母外、还有爷爷奶奶、姑舅、姥爷姥姥、则父母就应该是表达孩子长相的家族遗传因素中的主成
分。

On 11月14日, 下午3时03分, Qing <happys...@gmail.com> wrote:
> 江堂,你能再构造一个简单的场景来说明这两者的区别么?
> 老沈的场景很简单,但后来才看到你说他错了。而你一开始的读书笔记里面的例子,还是有点复杂,比如因子分析里面,那个勤奋因子和智力因子从哪儿冒来的?
>
> 2008/11/14 Hu, Jiangtang <jiangtan...@gmail.com>
>
> > 这个说法没问题。
>
> 。

yus...@gmail.com

unread,
Nov 17, 2008, 9:26:47 PM11/17/08
to ttnn BI 观点
哈,大家说的这么热闹,我也给一个例子:
兄弟姐妹十个人,它们长相应该有许多相似之处,因子分解应该是父母,两个因子(假设夫妻的长相是独立无关的)是孩子们的共同因素。
假设一个孩子的长相,总是继承了家族中某个人的特点,除了父母外、还有爷爷奶奶、姑舅、姥爷姥姥、则父母就应该是孩子长相的家族遗传因素中的主成分。

On 11月14日, 下午3时03分, Qing <happys...@gmail.com> wrote:
> 江堂,你能再构造一个简单的场景来说明这两者的区别么?
> 老沈的场景很简单,但后来才看到你说他错了。而你一开始的读书笔记里面的例子,还是有点复杂,比如因子分析里面,那个勤奋因子和智力因子从哪儿冒来的?
>
> 2008/11/14 Hu, Jiangtang <jiangtan...@gmail.com>
>
> > 这个说法没问题。
>
> 。

Jiangtang Hu

unread,
Nov 18, 2008, 2:28:52 AM11/18/08
to tt...@googlegroups.com
事是越辨越明。说了这么多,我的主要问题是没能够用大伙喜闻乐见的语言表达些抽象的东西,这个要好好向Qing学习。顺着Qing的故事讲,是一个因子分析的例子:
 
                 因子1    因子 2   因子3
思想品德   0.1       0.8      0.02
劳动           0.08     0.9      0.2
语文           0.8       0.1      0.1
英语           0.9       0.15    0.3
美术           0.1       0.7      0.1
体育           0.2       0.1      0.9
 
这个表大概可以读成,比如,思想品德=0.1*因子1+0.8*因子2+0.02*因子3,其他类似。Qing说“语文、英语可以合成智力分数”,应该说语文成绩和英语成绩这两个变量可以归属于智力这个因子,其他类似。这里的智力因子是不可以观察的,而是建模人员总结出来的,所以之前我提到因子分析本身就是一个建模过程。跟主成分分析一样,因子分析可以减少纳入模型的变量个数,有效减少变量之间的相关性问题(多重共线性);进一步,比如,语文成绩和英语成绩为什么有相关性?主成分分析不能回答,但因子分析可以找出支配这两个变量的共同因子(这里是“智力”)。
 
再说主成分。比如,以下的数字不必与Qing上面提到的契合,纯粹演示用:
 
                 主成分1  主成分2    主成分3

思想品德   0.1          0.8               0.02
劳动           0.08        0.9               0.2
语文           0.8          0.1               0.1
英语           0.9          0.15             0.3
美术           0.1          0.7               0.1
体育           0.2          0.1               0.9
 
上表可以读成,比如,主成分1=0.1*思想品德+0.08*劳动+0.8*语文+0.9*英语+0.1美术+0.2*体育,其他类似。这里,三个主成分可以代表以上六个变量的大部分信息。关键是,主成分里没有“共同因子”这个说法。
 
------------------------------
胡江堂
北京大学软件与微电子学院06级硕
Jiang...@gmail.com
生活博客(读书、见闻): http://panshanghu.spaces.live.com
技术博客(SAS、数据挖掘、数量金融):http://johnthu.spaces.live.com

LiAndy

unread,
Nov 18, 2008, 5:00:58 AM11/18/08
to tt...@googlegroups.com
恩,学术话语和实践话语是不同的,谢谢Jiangtang Hu。
其实,二者可以兼得,就担心浪费写者的时间(实际上浪费的时间并不多)。写到最后了,可以用学术话语在简化说下,或者按照自己擅长的方式来做。
呵呵,这些小方法只是些社区小技巧而已。

Hawking, Bin

unread,
Nov 19, 2008, 5:08:20 AM11/19/08
to ttnn BI 观点
从实用的角度去看吧。主成分是用于解决一类最优化问题,指导资源(一种资源对应一个指标)投放的。最大eigen value对应的eigen
vector就是各项资源投放的力度。这样就能实现目标最大化。

不过应用这些方法之前要了解它的前提和假设。

首先它是假设各项指标是平等的。比如奥运,我们是唯金牌数的,只要有牌就行,不管是哪个项目。有些国家的价值观就不一样,老说我们偏短平快的项目。

其次每项指标发展是无限度的。否则要对方法作一些变化,这就有了因子分析法。

不符合这些假设时去用是可能有问题的。但是要知道,限于现有数据来分析,不一定能完成解决问题,需要更多指标或业务介入。特别是,优化目标要事先确定,
并由数据充分必要地反映。

Reply all
Reply to author
Forward
0 new messages