3. 假设检验
全因子受试者间方差分析的假设检验如表2所示。
表 2. 方差分析假设检验
1. 每个单元中观测对象是独立的。
2. 因变量至少是间隔以上的测量尺度。
3. 每个单元的分布形状对称。
4. 每个单元的分布同质。
假设1 (独立性).每个设计单元中有不同的参与者,所以数据是独立的。
假设 2 (测量尺度). 得分的测量尺度是比率。
假设 3 (正态性). 假设数据在6个设计单元中服从正态分布。如果分布对称,那么方差分析是稳健的。这个假设能用探索过程检验每个设计单元的正态
性。然而,探索过程默认的分析是在每个选择因子的主效应上计算所需要的统计量。 对这个数据,当在Factor List框中放置reward 和
drive 时,探索过程将在奖励的三个水平和驱赶的两个水平内分别进行正态性检验。它不会在6个设计单元内按照假设要求计算所需要的统计量。所以,为
了生成需要的检验,必须使用语法命令改变这一切。打开探索过程对话框
Analyze
Descriptive Statistics
Explore ...
将变量score 移到Dependent List窗口,变量drive 和 reward 移到 Factor List窗口。选择茎叶图,因子水
平在一起的箱图,带检验的正态图,带Levene 检验的展布和水平幂估计和描述统计。运行探索过程,看到它没有给出方差分析假设的正确检验。注意,输
出显示了每个因子的统计量。更确切地说,输出描述奖励和驱赶的主效应,没有给出六个设计单元的统计量。回到探索过程对话框,点击Paste出现语法窗
口。语法窗口的内容如下。
表3. 探索过程语法
EXAMINE
VARIABLES=score BY drive reward
/PLOT BOXPLOT STEMLEAF NPPLOT SPREADLEVEL
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
在2 x 3设计中,要得到每个单元的统计量,仅仅需要在命令
VARIABLES = score BY drive reward 中的驱赶和奖励因子间插入关键字BY 。
正确的语法文件显示在表4中。插入的BY 用蓝色显示。
表4 修正的探索过程语法
EXAMINE
VARIABLES=score BY drive BY reward
/PLOT BOXPLOT STEMLEAF NPPLOT SPREADLEVEL
/COMPARE GROUP
/STATISTICS DESCRIPTIVES
/CINTERVAL 95
/MISSING LISTWISE
/NOTOTAL.
然后执行语法命令。
注意:方差一致性假设能由GLM或探索过程来检验。探索过程建议使用幂变换简化一致性问题。GLM做不到。
表5给出偏度和峰度统计量的概要。指出每个单元中的数据是正态分布。在24小时和5个葡萄的单元中峰度有些问题,但是这不是我们所关心的,因为当分布对
称时,方差分析是稳健的。
表 5. Skewness(SE Skewness) and Kurtosis(SE Kurtosis) Statistics
Reward
1 grape 3 grapes 5 grapes
Drive Level 1 hour skewness 0.63(1.01) 0.00(1.01) -0.60(1.01)
kurtosis -1.70(2.62) -4.34(2.62) -0.77(2.62)
24-hours skewness -0.60(1.01) 0.00(1.01) 0.00(1.01)
kurtosis -0.77(2.62) -3.30(2.62) -5.41(2.62)
科尔莫果诺夫—沙米尔诺夫正态性检验没有提供显著性水平是因为每个单元中观测数太少。
假设 4 (一致性). Levene一致性检验显示方差是一致的,见表6。方差一致性假设能由GLM或探索过程来实现。探索过程建议使用幂变换简化一
致性问题。GLM做不到。
表 6. 基于均值的方差一致性检验
Levene Statistic df1 df2 Sig.
Number correct on the 20 training trials 1.000 5 18 .446
无论何时,进行Levene检验,都应该检查自由度。Df1是设计中组间单元数减1。在这个设计中,组间单元有6个,所以df1是5。如果在探索过程的
语法中忘记增加BY项,会有几个Levene检验,在设计中有几个因子就有几个Levene检验。本例中,有两个Levene检验,自由度为1的驱赶因
子有一个Levene检验,和自由度为2的奖励因子有一个Levene检验。
箱图从视觉上提供了研究中发生了什么,见图1。首先,方差看起来相当一致。在剥夺24小时食物的高驱赶水平中,动物的表演没有受到奖励数量的影响。然
而,在剥夺1小时食物的低驱赶水平中,奖励越多,动物的表演得分越高。箱图提示方差分析应该显示奖励和驱赶的显著性交互作用。
图 1. 箱图显示奖励与驱赶的正确响应数。
你的箱图可能与图1不同。箱图是按照因子进入Factor List窗口的次序组织的。当先移动驱赶水平后移动奖励数量到Factor List窗口
时,箱图的次序(从左到右)如表7所示。
表7.当因子次序是驱赶和奖励时箱图的次序
Box order
(left to right) Drive Level
(2 levels) Reward Magnitude
(3 levels)
1st box 1 1
2nd box 1 2
3rd box 1 3
4th box 2 1
5th box 2 2
6th box 2 3
规律是:后进先变。最后进入因子的指针最先变动。在这种情况下,驱赶固定在水平1,最后进入因子(奖励)的指针在奖励的水平间逐渐增加。然后,驱赶增加
到水平2,最后进入因子的指针再重新在奖励的水平间逐渐增加。
当先移动奖励数量后移动驱赶水平到Factor List窗口时,箱图的次序(从左到右)如表8所示。确定箱图从左到右次序的规则相同。
表8. .当因子次序是奖励和驱赶时箱图次序
Box order
(left to right) Reward Magnitude
(3 levels) Drive Level
(2 levels)
1st box 1 1
2nd box 1 2
3rd box 2 1
4th box 2 2
5th box 3 1
6th box 3 2
4. 选择GLM 过程
选择GLM过程
Analyze
General Linear Model
Univariate ...
移动变量score 到 Dependent Variable窗口。
Reward 和 drive 都是固定因子,移动它们到Fixed Factor(s)窗口。在这个研究中没有随机因子也没有协变量。事实上,我不记
得在心理学的本科生或研究生论文中用过随机因子(除了对象外)。
变量能在加权最小二乘法(WLS Weight)中指定为加权变量。在心理学研究中这些是不常用的选项。
考虑这个问题有两种不同的方法。在对话框中检查所有的选项按钮,选择每一种可能的选项,然后非常吃力地读完GLM过程产生的所有输出。或用我推荐的方
法,查看由GLM产生的基本输出,然后决定增加什么附加信息。所以,确定因变量,自变量和描述统计量后,点击 OK 按钮,看看得到什么。
5. 基本输出
GLM基本输出有两张表,第一张表是组间因子和因子水平观测数表,见表9。
表9. Between-Subjects Factors
Value Label N
Drive level of animals (hours of deprivation) 1 1 hour deprived 12
2 24 hours deprived 12
Magnitude of reward 1 1 grape 8
2 3 grapes 8
3 5 grapes 8
第二张是描述统计表,在下一部分讲解。即,6. 显著性效应解释:显示均值
第三张表包含方差分析的结果,见表10。包括平方和,F值,显著性水平。奖励和驱赶的交互作用显著, F(2, 18) = 3.927, p = .
038。两个主效应都不显著,驱赶的 F(1, 18) = 1.309, p = .268, 奖励的F(2, 18) = 3.055, p
= .072.
表 10. Tests of Between-Subjects Effects
Dependent Variable: Number correct on the 20 training trials
Source Type III Sum of Squares df Mean Square F Sig.
Corrected Model 280.000(b) 5 56.000 3.055 .036
Intercept 2400.000 1 2400.000 130.909 .000
DRIVE 24.000 1 24.000 1.309 .268
REWARD 112.000 2 56.000 3.055 .072
DRIVE * REWARD 144.000 2 72.000 3.927 .038
Error 330.000 18 18.333
Total 3010.000 24
Corrected Total 610.000 23
a R Squared = .459 (Adjusted R Squared = .309)
Intercept. 方差分析中的截距项检验总均值是否为零。因为所有因变量得分为正,所以总均值不为零。因此截距的检验我们不感兴趣。
Corrected model. 带5个自由度的校正模型是总体模型。包括两个主效应和交互作用的变异,因此自由度为5。当设计平衡时,即当每个单元
中观测数相等,没有缺失单元时,校正模型的平方和是主效应和交互效应的平方和之和。在这种情况下, SS corrected model =
SSdrive + SSreward + SSdrive*reward
280.00 = 24.00 + 112.00 + 144.00
有一个R Squared与校正模型相关联,见注释a 。 R 方是校正模型占因变量变异的比例。本例中,两个主效应和交互效应占得分变异的46%。
Adjusted R Square是总体中预测模型的估计。它总是小于R方。 小于R方多少取决于模型中变量数和样本量。变量固定时,样本量越小,相
关性越大。模型中样本量固定时,变量越多,相关性越大。在这种情况下,调整R方占因变量方差的31%。调整R方有时被叫做缩水R 方。
corrected total的平方和是校正模型和误差项的平方和之和。
在心理学中,校正模型的统计量在报告不常使用。我们感兴趣的是主效应和交互效应而不是总体模型。
total平方和是截距,主效应,交互效应和误差项的平方和之和。
Error行给出单元内误差项的统计量。均方误差用于检验主效应和交互效应。
6.显著性效应解释 : 显示均值
方差分析表中,奖励和驱赶交互作用显著。下一步是设法理解交互作用。这需要查看交互作用的均值。对2 x 3设计,有三种方法查看交互作用的均值。
Descriptives
第一选择是查看描述统计表。描述统计表给出设计单元的均值,标准差和观测数。因为是两因子方差分析,所以描述统计表也有两因子交互作用的描述统计量。如
果是三因子或更多因子的设计,描述统计表将给出更高阶的交互作用均值,但不会给出低阶交互作用的均值。描述统计的复选框位于Options部分。在左下
部找Display ,点击 Descriptive Statistics 。
描述统计显示在表11中。看看均值如何在表11中组织的。当浏览表时,显示的第一个变量是驱赶水平,第二个变量是奖励数量。因为这种组织,奖励数量的每
个水平的均值显示在两个驱赶水平内。表的底部total汇总的均值是奖励数量的主效应均值。这个次序是由对话框中初始选择因子的次序决定的。在这个例子
中,驱赶因子列在前面。如果奖励数量列在前面,那么表11中第一个变量是奖励数量。驱赶的每个水平的均值显示在奖励的每个水平内。底部汇总是驱赶水平主
效应的主效应均值。
表11. Descriptive Statistics
Drive level of animals (hours of deprivation) Magnitude of reward
Mean Std. Deviation N
Number correct on the 20 training trials 1 hour deprived 1 grape
3.00 3.16 4
3 grapes 10.00 4.76 4
5 grapes 14.00 3.92 4
Total 9.00 5.97 12
24 hours deprived 1 grape 11.00 3.92 4
3 grapes 12.00 5.48 4
5 grapes 10.00 4.08 4
Total 11.00 4.20 12
Total 1 grape 7.00 5.40 8
3 grapes 11.00 4.87 8
5 grapes 12.00 4.28 8
Total 10.00 5.15 24
主效应均值在Total行中。例如,1个葡萄,3个葡萄和5个葡萄的奖励主效应分别是7.00, 11.0 和 12.0。驱赶1小时和24小时的主效
应分别是9.0 和 11.0。
注释:如果设计单元中观测数相等,描述统计表中主效应均值可以使用Descriptive Statistics选项。在这个例子中,每个设计中单元有
4个动物,所以主效应均值是正确的。如果单元数不等,那么报告中用"Estimated Marginal Means"的均值而不是
Descriptive Statistics选项的均值。
Estimated Marginal Means
还有一种方法呈现显著性效应的均值。Options对话框的顶部有一个Estimated Marginal Means. 对话框左边有
Factors(s) and Factor Interactions。移动主效应或交互效应到Display Means for。对话框会出现主
效应和交互效应。移动显著的drive*reward 交互作用到Display Means 框。
drive*reward的估计边际均值显示在表12中。除了均值外,还有标准误和均值的95%置信区间。注意:单元数和标准差在边际估计均值中没有显
示。
表12. 奖励和驱赶的估计边际均值
Dependent Variable: Number correct on the 20 training trials
Mean Std. Error 95% Confidence Interval
Drive level of animals (hours of deprivation) Magnitude of reward
Lower Bound Upper Bound
1 hour deprived 1 grape 3.000 2.141 -1.498 7.498
3 grapes 10.000 2.141 5.502 14.498
5 grapes 14.000 2.141 9.502 18.498
24 hours deprived 1 grape 11.000 2.141 6.502 15.498
3 grapes 12.000 2.141 7.502 16.498
5 grapes 10.000 2.141 5.502 14.498
Profile Plots
选择Plots ,均值能用图示方式表示。这个选项会产生特征图。特征图的纵轴总是表示因变量(本例中是得分)。可以选择因子作为水平轴。对这个研究,
选择奖励因子作为水平轴。接下来,选择一个因子作为独立折线或独立图。如果选择驱赶水平作为独立折线,那么在特征图中每个驱赶水平会以各自的线条来显
示。如果选择驱赶水平为独立图,那么驱赶的两个水平分两个图来显示。现在选择驱赶水平作为独立折线。最后按下Add 按钮完成定义特征图的处理。特征图
显示在图2中。
图 2. 奖励与驱赶交互作用的特征图
通过绘制不同驱赶水平的折线,特征图着重于驱赶水平内奖励的效应。仔细查看特征图发现两条线不平行。事实上,不平行是表示存在交互作用。平行线表示没有
交互作用。高驱赶水平(24小时)的折线相当平坦。即,如果动物有高驱赶水平,奖励数量对表演没有影响。低驱赶水平(1小时)的折线有正斜率,奖励越
多,动物表演越好。总结如下,特征图提示在高驱赶水平下,奖励对动物的表演没有影响,对低驱赶水平下,奖励肯定与的动物表演有关。
如果选择驱赶因子作为水平轴,特征图的结果着重于奖励水平内驱赶的效应。看了特征图后,如果认为特征图对描述数据有帮助,就要返回并选择另一个因子作为
水平轴。对这个数据,试着用每一个因子作水平轴。思考一下那一个因子对描述数据更有帮助。
通过只选择水平轴的一个因子建立主效应特征图。即,不选择独立折线或独立图作为因子。试着建立奖励主效应的特征图。
7. 显著性效应解释:事后比较
Main Effects
在这个分析中主效应不显著。如果显著,GLM中有两种方式可实现显著主效应的事后比较:
(a)进入 Post Hoc对话框。 选择待选的主效应,选择需要进行的检验类型,然后按继续按钮. 事后比较检验与单因子方差分析中描述的相
同。
(b)进入Options对话框的估计边际均值部分。从因子和因子交互作用窗口选择待选的主效应,移动它们到显示均值窗口。钩选比较主效应选项,按继续
按钮。使用这个选项有三种方式调整置信区间:
(a) none,用未校正的t检验进行个案比较,这种方法也叫做LSD 检验;
(b) Bonferroni,个案的alpha水平是 Bonferroni alpha = alpha/C
这里 C是主效应检验可能的比较对数;
(c) Sidak,个案的alpha 水平是 Sidak alpha = 1 - (1 - alpha)1/C
这里 C 是主效应检验可能的比较对数。
在奖励主效应上练习Tukey HSD 事后比较。因为奖励主效应不显著,输出显示均值间没有差别。
Interaction Effects
检查交互作用均值暗示高驱赶水平内奖励没有影响,但在低驱赶水平内奖励有影响,奖励越多,表演越好。统计上检验这些观测的一个可行方法是进行事后比较。
事后比较检验包含在 Post Hoc选项中。
左上部的Factor(s)显示进行事后比较检验的因子。移动因子到 Post Hoc Tests for窗口进行所选因子的事后比较。如你所见,存
在一个问题。我们想检验交互作用均值,但是这里只列出主均值。
似乎没有办法解决这个问题。如果试图编辑事后比较检验的GLM语法,会得到一个错误消息,星号是非法符号的,只有主效应能定义事后比较。GLM只能进行
主效应因子上的事后比较。
这部分讨论显著性交互作用成对比较检验的两种选择:
(a) 使用Tukey's HSD 用手算检验;
(b) 在GLM中建立检验因子交互作用的单因子检验。
交互作用效应:手算运行Tukey's HSD 检验
交互作用间检验差别的一个方案是通过手算进行事后比较检验。(HSD)是等观测数n设计的临界值,
这里, MSerror 是方差分析中的均方误差;n 是一个单元的观测数; q,p,v 是由给定显著性水平为,设计单元数为p ,均方误差项自
由度为v的Studentized Range Statistic表的百分点 。
本例中, MSerror = 18.333, n = 4, p = 6个单元, 和v = 18。Studentized
Range Statistic表的q,p,v 值是 4.49. 替代HSD公式得到
= 4.49 * 2.14
= 9.61
大于9.61的均值差彼此间有明显的差别。
研究中所有配对均值差显示在表13中。
表13. Mean Differences for all Possible Paired Comparisons
Diff(i - j) = rowi - columnj
1 hour deprived 24 hours deprived
1 grape 3 grapes 5 grapes 1 grape 2 grapes 3 grapes
Drive level of animals (hours of deprivation) Magnitude of reward
3.00 10.0 14.0 11.0 12.0 10.0
1 hour deprived 1 grape 3.0 -7.0 -11.0* -8.0 -9.0 -7.0
3 grapes 10.0 -3.0 -1.0 -2.0 -0.0
5 grapes 14.0 3.0 2.0 4.0
24 hours deprived 1 grape 11.0 -1.0 1.0
3 grapes 12.0 2.0
5 grapes 10.0
* different at p < .05 using Tukey's HSD procedure.
成对比较中只有一个显著性差别在低驱赶水平(剥夺1小时)——1个葡萄, M = 3.00,和低驱赶水平(剥夺1小时)——5个葡萄, M =
14.00间。这两组条件的差11.00,大于HSD临界差9.61。
交互作用效应:从两因子交互作用中建立单因子效应
在这个方案中,首先(a)变换两因子交互作用的六个单元为六水平的单因子,然后(b)进行单因子方差分析寻求适当的事后检验(例如,
Tukeys)。
变换两因子交互作用为一个主效应。 IF数据变换用于建立两因子交互作用中包含每个单元的单因子。新因子的变量名为"int" (交互作用)如表14所
示。IF语句能手工录入,或使用COMPUTE变换对话框建立。如果使用COMPUTE变换对话框,需要单独粘贴每个IF到语法窗口中。使用对话框比直
接录入花费的时间要多。
表14. Using IF transformations to create a new factor based on the
interaction means
IF (drive = 1 and reward = 1) int = 1 .
IF (drive = 1 and reward = 2) int = 2 .
IF (drive = 1 and reward = 3) int = 3 .
IF (drive = 2 and reward = 1) int = 4 .
IF (drive = 2 and reward = 2) int = 5 .
IF (drive = 2 and reward = 3) int = 6 .
VARIABLE LABEL int 'factor for post hoc test of the interaction'.
VALUE LABELS int 1 'drive = 1, reward = 1'
2 'drive = 1, reward = 2'
3 'drive = 1, reward = 3'
4 'drive = 2, reward = 1'
5 'drive = 2, reward = 2'
6 'drive = 2, reward = 3' .
EXECUTE .
语法中应包括变量标签和值标签命令,否则新建立的变量,int,要手工添加标签。
Running the post-hoc test. 运行语法命令后,进入GLM: Univariate, 将score 作为因变量和int
作为因子。然后能用上面Main Effects里介绍的两种方法检验 int的 "主效应" 。
无论执行手工运行HSD成对比较还是建立交互作用因子并执行因子上Tukey 检验,得出的结论应该相同。
当进行这种类型分析时要注意几件事情:
1) 总是要检查你的变换确保它们所做的是你希望要做的。
2) 进行分析后检查方差分析表确保df和误差项的MS是与原分析中df 和误差项的MS相同。如果不相同那么你一定做错了什么。
3) 不涉及'int'主效应项的F统计量,它与这个分析无关。
8. 单纯主效应分析
解释两因子交互效应的另一种方法是使用单纯主效应分析。在单纯主效应分析中,一个变量的主效应在另一变量的所有水平内分析。
单纯主效应分析在GLM:单纯主效应中介绍。
9. 效应解释:效应度和检验功效
方差分析中两个常用的解释统计量是效应度的估计和观测的检验功效。效应度估计和检验功效在Options...对话框中选择。结果如在表15所示。
表15. Tests of Between-Subjects Effects
Dependent Variable: Number correct on the 20 training trials
Source Type III Sum of Squares df Mean Square F Sig. Eta Squared
Noncent. Parameter Observed Power
Corrected Model 280.000 5 56.000 3.055 .036 .459 15.273 .742
Intercept 2400.000 1 2400.000 130.909 .000 .879 130.909 1.000
DRIVE 24.000 1 24.000 1.309 .268 .068 1.309 .192
REWARD 112.000 2 56.000 3.055 .072 .253 6.109 .517
DRIVE * REWARD 144.000 2 72.000 3.927 .038 .304 7.855 .630
Error 330.000 18 18.333
Total 3010.000 24
Corrected Total 610.000 23
a Computed using alpha = .05
b R Squared = .459 (Adjusted R Squared = .309)
Eta squared. 效应度由偏 eta 方 (2)度量。 偏2 表示该因子的变异占因变量总变异的比例。 对单变量F检验和t检验,偏
2的公式是
2 = (SSeffect)/(SSeffect + SSerror)
这里 SSeffect 是效应的平方和,SSerror 是误差项的平方和。
交互效应的2是
2 = (144.00)/(144.00 + 330.00)
= 144.00/474.00
= .304
表演得分中30%的变异归功于交互效应
Observed Power. 功效是正确拒绝原假设的概率。交互效应的功效是.630。如果研究重复100次,那么有63次正确拒绝原假设。功效能
通过增加样本量,减少研究中误差源或增加自身效应量来改进。本例中,也许效应量随着最高奖励量的增加而增加。
Noncentrality parameter. 当选择检验功效时,非中心参数就会出现。如果原假设不真,那么F统计量有一个非中心样本分布和相关
的非中心参数。这个非中心参数用于计算检验功效。