北大生物统计教授(退休),孙尚拱,将要交付高教出版社的一部书稿,《应用多变量统计分析》,提到利用回归公式做"逆推理"的谬误,不妨转给大伙看看(直接贴过来的,格式乱七八糟,对不住了,但愿大伙能看到些有用的东西):
某些统计标准制定中的错误:实例分析
回归模型的应用中有两个方面:统计预测(statistical forecast)和统计控制(statistical control)。(统计预测是回归模型的重要应用之一)。所谓预测就是根据回归模型,把自变量x代入回归模型对应变量Y进行估计,其波动范围可按求个体Y值置信区间方法计算。统计控制(逆推理)则正好与此相反。统计控制中的常用方法是利用回归模型进行逆估计,即根据回归模型的变换,由应变量y的取值范围反推自变量x的取值范围。
目前国内外文献及书籍中,基本上都是上述的逆推理法(目前有的文献已经指出这种逆推理方法是不合理的。但是这个问题没有引起足够重视,在有关医学科研工作中基本都采用了逆推理方法。。本文对传统的利用回归模型进行统计控制(逆推理方法)的理论提出质疑;通过实例,说明了传统方法在理论及实用中都是不妥的,并且提出了一种相对合理的统计方法。
美国某家医院为了预测低出生体重(出生体重£2500g),现收集一组数据用于建立预报公式:
测量31名临产孕妇的尿中雌三醇浓度(mm/24hr)以及此后出生的婴儿体重(单位:100g)。测得数据如下:
雌三醇浓度(mm/24hr):
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15 16 17 25 27 15 15 15 16 19 18 17 18 20 22 25 24
出生体重(100g,与上顺序对应):
25 25 25 27 27 27 24 30 30 31 30 31 30 28 32 32 32 32 34 34 34 35 35 34 35 36 37 38 40 39 43
问题:雌三醇浓度取何值,能预测临产孕妇将会有低出生体重的婴儿?
一、传统的方法:
以雌三醇为自变量(x),出生体重为应变量(y),建立线性回归模型:
出生体重的估计值(^y)=21.523 + 0.608×雌三醇 (1)
残差标准差=3.8211
把出生体重=25代入回归模型(1)式,得
25=21.523 + 0.608×雌三醇 (2)
解得 雌三醇浓度值为
雌三醇= 5.7178 (mm/24hr)
因此,预测法就是:
当孕妇尿中雌三醇浓度£5.7178 mm/24hr时,
就预测出生婴儿体重会低于2500g。
存在的问题:
(1)、考察实用性:上述结果能给出诊断错误的概率?
专家们一般都不考虑! 实际上这是必须考虑的。要考察诊断错误概率,按回归理论,应计算应变量的置信区间(即正常波动范围)公式:
(见附件公式1)
则 雌三醇(X0)=5.7178 (mm/24hr)时,对应的出生体重(Y0)的95%正常波动范围:
16.3 ~33.7 (区间中点是2500 克)
此结果表明:当雌三醇=5.8 (略大于5.7178mm/24hr)时,出生体重值低于2500克的机会高达50%,即有一半的出生体重者诊断错误!反之,当雌三醇=5.6 (略小于5.7178mm/24hr)时,出生体重值高于2500克的机会也近似于50%。因此,
上结果对于预测低出生体重实在是设有意义!
(2)、考察统计学上的合理性:
我们能否把统计学中的回归公式当作普通的数学式子一样:比如1+2=3,自然的有2=3-1那样逆推?答案是'不可以!' 因为统计学的回归公式
y的预报值=ax+b
在建立它时,只能用x去拟合y,而不是同时拟合(x,y)。也就是说,回归公式的使用只能是单向的,它不应该当作'1+2=3,自然的2=3-1'那样的可以双向使用!
二、合理的统计方法
根据回归理论,上述实例应把 雌三醇 作为应变量,而以出生体重为自变量,从而建立线性回归模型。由上数据可得:
雌三醇的预报值= -2.335 + 0.611×出生体重, (3)
残差标准差 =3.8308,
当出生体重=25千克时,雌三醇预报值为
雌三醇= -2.335 + 0.611×25 = 12.940 (4)
雌三醇 = 12.940时的95%下侧临界值为
(公式贴不过来)=6.098
即雌三醇 <6.098(单位)时,孕妇将出生"低体重"的婴儿,而且诊断错误率 < 5%。
三、一个严重的问题
利用回归法得出的公式做逆推理从而找出需要控制的阈值,在国内外的实际工作中一直得到非常广泛的应用。但从本文可见,目前国内外对于类似问题的应用,普遍存在有上述误区。问题的严重性在于国内外一直都在用(2)的逆推法制定世界及国内的食物营养、药品、毒品、环境及各种标淮!而由上讨论可见,已有的标准中的错误是太严重了(错误率50%)!
这个案例确实很学术,我看了半小时,有点明白,不过也不是太明白。教授说,第一种统计方法不好,因为最后验证的结果是诊断错误一半对一半,那只能说回归模型不好,得重新建啊,难道专家们用了那个模型得出个答案就不管了?这可有点说不过去。第二种模型好,是否可能是因为数据本身更适合这样的模型呢?不知道这个例子是不是还有非常长的论述,反正从这里并不能令人信服地证明教授的观点。
看起来文中统计预测、统计控制、逆推理是专门术语,不过对于其中存在问题的第一点,也就是实用性问题上,教授说第一种模型结论对预测低体重出生没有任何意义,这本身恐怕也是一个没有意义的说法。如果要从实际效果说,低体重出生难道只是跟母三醇有关系,应该还有其他因素。所以,我觉得教授只谈第二个问题就够了----统计上的合理性。
已 经 超 过 100 万 台 电 脑 安 装 了 网 易 有 道 免 费 英 汉 词 典 , 点 击 此 处 可 以 快 速 下 载
北大生物统计教授(退休),孙尚拱,将要交付高教出版社的一部书稿,《应用多变量统计分析》,提到利用回归公式做"逆推理"的谬误,不妨转给大伙看看(直接贴过来的,格式乱七八糟,对不住了,但愿大伙能看到些有用的东西):
某些统计标准制定中的错误:实例分析
回归模型的应用中有两个方面:统计预测(statistical forecast)和统计控制(statistical control)。(统计预测是回归模型的重要应用之一)。所谓预测就是根据回归模型,把自变量x代入回归模型对应变量Y进行估计,其波动范围可按求个体Y值置信区间方法计算。统计控制(逆推理)则正好与此相反。统计控制中的常用方法是利用回归模型进行逆估计,即根据回归模型的变换,由应变量y的取值范围反推自变量x的取值范围。
目前国内外文献及书籍中,基本上都是上述的逆推理法(目前有的文献已经指出这种逆推理方法是不合理的。但是这个问题没有引起足够重视,在有关医学科研工作中基本都采用了逆推理方法。。本文对传统的利用回归模型进行统计控制(逆推理方法)的理论提出质疑;通过实例,说明了传统方法在理论及实用中都是不妥的,并且提出了一种相对合理的统计方法。
0、例子(实例摘自:Bernard Rosner. Fundamentals of Biostatistics, 5th edition.Brooks,2000, P433. )
美国某家医院为了预测低出生体重(出生体重£2500g),现收集一组数据用于建立预报公式:
测量31名临产孕妇的尿中雌三醇浓度(mm/24hr)以及此后出生的婴儿体重(单位:100g)。测得数据如下:
雌三醇浓度(mm/24hr):
7 9 9 12 14 16 16 14 16 16 17 19 21 24 15 16 17 25 27 15 15 15 16 19 18 17 18 20 22 25 24
出生体重(100g,与上顺序对应):
25 25 25 27 27 27 24 30 30 31 30 31 30 28 32 32 32 32 34 34 34 35 35 34 35 36 37 38 40 39 43
问题:雌三醇浓度取何值,能预测临产孕妇将会有低出生体重的婴儿?
一、传统的方法:
以雌三醇为自变量(x),出生体重为应变量(y),建立线性回归模型:
(2)、考察统计学上的合理性:
我们能否把统计学中的回归公式当作普通的数学式子一样:比如1+2=3,自然的有2=3-1那样逆推?答案是'不可以!' 因为统计学的回归公式
y的预报值=ax+b
在建立它时,只能用x去拟合y,而不是同时拟合(x,y)。也就是说,回归公式的使用只能是单向的,它不应该当作'1+2=3,自然的2=3-1'那样的可以双向使用!
二、合理的统计方法
根据回归理论,上述实例应把 雌三醇 作为应变量,而以出生体重为自变量,从而建立线性回归模型。由上数据可得:
--
胡江堂
北京大学软件与微电子学院06硕
Jiang...@gmail.com
生活博客(读书、见闻): http://panshanghu.spaces.live.com/
技术博客(SAS、数据挖掘、数量金融): http://johnthu.spaces.live.com/
我晕了,要崩溃。到底雌三醇跟婴儿体重有没有关系?