回归公式的逆推理

28 views
Skip to first unread message

Hu, Jiangtang

unread,
Feb 27, 2008, 8:16:16 PM2/27/08
to bi

北大生物统计教授(退休),孙尚拱,将要交付高教出版社的一部书稿,《应用多变量统计分析》,提到利用回归公式做"逆推理"的谬误,不妨转给大伙看看(直接贴过来的,格式乱七八糟,对不住了,但愿大伙能看到些有用的东西):


某些统计标准制定中的错误:实例分析


回归模型的应用中有两个方面:统计预测(statistical forecast)和统计控制(statistical control)。(统计预测是回归模型的重要应用之一)。所谓预测就是根据回归模型,把自变量x代入回归模型对应变量Y进行估计,其波动范围可按求个体Y值置信区间方法计算。统计控制(逆推理)则正好与此相反。统计控制中的常用方法是利用回归模型进行逆估计,即根据回归模型的变换,由应变量y的取值范围反推自变量x的取值范围。

目前国内外文献及书籍中,基本上都是上述的逆推理法(目前有的文献已经指出这种逆推理方法是不合理的。但是这个问题没有引起足够重视,在有关医学科研工作中基本都采用了逆推理方法。本文对传统的利用回归模型进行统计控制(逆推理方法)的理论提出质疑;通过实例,说明了传统方法在理论及实用中都是不妥的,并且提出了一种相对合理的统计方法


0、例子(实例摘自:Bernard Rosner. Fundamentals of Biostatistics, 5th edition.Brooks,2000, P433.


美国某家医院为了预测低出生体重(出生体重£2500g),现收集一组数据用于建立预报公式:

测量31名临产孕妇的尿中雌三醇浓度(mm/24hr)以及此后出生的婴儿体重(单位:100g)。测得数据如下:

雌三醇浓度(mm/24hr):

7  9  9     12  14  16  16  14  16  16  17  19  21  24  15 16  17  25  27  15  15  15  16  19  18  17 18  20  22  25  24

出生体重(100g,与上顺序对应)

25  25  25  27  27  27  24    30  30  31  30    31  30  28  32  32  32  32  34  34  34  35  35  34  35       36  37  38  40  39  43

问题:雌三醇浓度取何值,能预测临产孕妇将会有低出生体重的婴儿?

 

一、传统的方法

以雌三醇为自变量(x),出生体重为应变量(y),建立线性回归模型:

出生体重的估计值(^y)=21.523 + 0.608×雌三醇               (1)

         残差标准差=3.8211

把出生体重=25代入回归模型(1)式,得

          25=21.523 + 0.608×雌三醇                         2 

解得 雌三醇浓度值为

         雌三醇= 5.7178 (mm/24hr)

因此,预测法就是

当孕妇尿中雌三醇浓度£5.7178 mm/24hr时,

就预测出生婴儿体重会低于2500g

存在的问题:

(1)、考察实用性:上述结果能给出诊断错误的概率?

专家们一般都不考虑! 实际上这是必须考虑的。要考察诊断错误概率,按回归理论,应计算应变量的置信区间(即正常波动范围)公式:

(见附件公式1)

雌三醇(X0)=5.7178 (mm/24hr)时,对应的出生体重(Y0)95%正常波动范围:

16.3 ~33.7  (区间中点是2500 )

此结果表明:当雌三醇=5.8 (略大于5.7178mm/24hr)时,出生体重值低于2500克的机会高达50%即有一半的出生体重者诊断错误!反之,当雌三醇=5.6 (略小于5.7178mm/24hr)时,出生体重值高于2500克的机会也近似于50%。因此,

上结果对于预测低出生体重实在是设有意义!

(2)、考察统计学上的合理性

我们能否把统计学中的回归公式当作普通的数学式子一样:比如1+2=3,自然的有2=3-1那样逆推?答案是'不可以!' 因为统计学的回归公式

y的预报值=ax+b

在建立它时,只能用x去拟合y,而不是同时拟合(x,y)。也就是说,回归公式的使用只能是单向的,它不应该当作'1+2=3,自然的2=3-1'那样的可以双向使用!

 

二、合理的统计方法

根据回归理论,上述实例应把 雌三醇 作为应变量,而以出生体重为自变量,从而建立线性回归模型。由上数据可得:

 雌三醇的预报值= -2.335 + 0.611×出生体重,                         (3)

      残差标准差 =3.8308

当出生体重=25千克时,雌三醇预报值为 

   雌三醇= -2.335 + 0.611×25 =  12.940                              (4)

雌三醇 = 12.940时的95%下侧临界值为

公式贴不过来)=6.098

即雌三醇 <6.098(单位)时,孕妇将出生"低体重"的婴儿,而且诊断错误率 < 5%

 

三、一个严重的问题

利用回归法得出的公式做逆推理从而找出需要控制的阈值,在国内外的实际工作中一直得到非常广泛的应用。但从本文可见,目前国内外对于类似问题的应用,普遍存在有上述误区。问题的严重性在于国内外一直都在用(2)的逆推法制定世界及国内的食物营养、药品、毒品、环境及各种标淮!而由上讨论可见,已有的标准中的错误是太严重了(错误率50%)


--
胡江堂
北京大学软件与微电子学院06硕
Jiang...@gmail.com
生活博客(读书、见闻): http://panshanghu.spaces.live.com/
技术博客(SAS、数据挖掘、数量金融): http://johnthu.spaces.live.com/
公式1.GIF

Qing

unread,
Feb 28, 2008, 12:52:40 AM2/28/08
to tt...@googlegroups.com
这个案例确实很学术,我看了半小时,有点明白,不过也不是太明白。
 
教授说,第一种统计方法不好,因为最后验证的结果是诊断错误一半对一半,那只能说回归模型不好,得重新建啊,难道专家们用了那个模型得出个答案就不管了?这可有点说不过去。第二种模型好,是否可能是因为数据本身更适合这样的模型呢?
 
不知道这个例子是不是还有非常长的论述,反正从这里并不能令人信服地证明教授的观点。
 
看起来文中统计预测、统计控制、逆推理是专门术语,不过对于其中存在问题的第一点,也就是实用性问题上,教授说第一种模型结论对预测低体重出生没有任何意义,这本身恐怕也是一个没有意义的说法。如果要从实际效果说,低体重出生难道只是跟母三醇有关系,应该还有其他因素。所以,我觉得教授只谈第二个问题就够了——统计上的合理性。
 
对于统计学,我不是很懂,所以不谈这个,只是从外行,最多也就是跟数据挖掘沾点边的程度来解读解读。
 
这个模型似乎在揭示一种因果关系,因可以导致果,但果不一定导致因,从这点看所谓逆推理的不合理性是正常的。但什么是"逆",恐怕是相对的。在这个例子里面,当然假设母三醇是因,低体重是果。可是从数字来看,不对。结果,换个思路,假设低体重是因,母三醇是果(当然,由于先后关系,这并非时间上的因果),这个假设从统计上是合理的,也就是说,如果我们知道是低体重的婴儿了,能够推理母亲的尿里面雌三醇小于多少。
 
反过来是不成立的。可如果不成立,不就跟原来的目标相背了吗?本来的业务目标就是预测雌三醇对低体重的影响,而不是低体重决定了雌三醇的多少啊?
 
说得有点绕,我自己都晕了。简化一些吧,如果从两个模型来进行业务解读,可不可以这样理解:
1、通过雌三醇并不能预测低体重出生;
2、如果出现低体重出生儿,雌三醇的小于0.608个单位的可能性非常大;

Hoo Eric

unread,
Feb 28, 2008, 1:17:37 AM2/28/08
to tt...@googlegroups.com
"如果要从实际效果说,低体重出生难道只是跟母三醇有关系,应该还有其他因素。"
是否应该还有其他因素,在这里应该不是重点。例子是以一个一元线性回归案例来做说明的,若有其他因素,只是从一元推及到多元而已。更进一步,亦可从线性推及非线性回归。
 
模型方面,如果确信雌三醇对低体重是有影响的(或者简化到一个变量,说它就是决定是否低体重的因素),那么就应该可以通过雌三醇的测量值来判断出生婴儿的体重。

按教授的观点,就是说:要确定哪个变量的阈值,就应该以其为因变量,而不需要管实际意义上谁因谁过(或者说业务意义上的因果)。
 
因此,要建立一个以雌三醇浓度为因变量的回归模型。
 
在08-2-28,Qing <happ...@gmail.com> 写道:
这个案例确实很学术,我看了半小时,有点明白,不过也不是太明白。
 
教授说,第一种统计方法不好,因为最后验证的结果是诊断错误一半对一半,那只能说回归模型不好,得重新建啊,难道专家们用了那个模型得出个答案就不管了?这可有点说不过去。第二种模型好,是否可能是因为数据本身更适合这样的模型呢?
 
不知道这个例子是不是还有非常长的论述,反正从这里并不能令人信服地证明教授的观点。
 
看起来文中统计预测、统计控制、逆推理是专门术语,不过对于其中存在问题的第一点,也就是实用性问题上,教授说第一种模型结论对预测低体重出生没有任何意义,这本身恐怕也是一个没有意义的说法。如果要从实际效果说,低体重出生难道只是跟母三醇有关系,应该还有其他因素。所以,我觉得教授只谈第二个问题就够了----统计上的合理性。

raullew

unread,
Feb 28, 2008, 7:12:59 AM2/28/08
to ttnn BI 观点
问题一,6.098是置信区间下边界?如果是这么算出来的话(看到说公式贴不过来),意味着雌三醇** <6.098的概率< 5%,为什么孙老师认为
此时对体重的诊断错误率< 5%?

问题二,孙老师提出两个(纠正过的)观点
1。当雌三醇=5.8 (略大于5.7178mm/24hr)时,出生体重值低于2500克的机会高达50%
2。*即雌三醇** <6.098(**单位**)**时,孕妇将出生**"**低体重**"**的婴儿,而且诊断错误率** <
5%**。***
但这两个观点是矛盾的,这个矛盾似乎不能用方差大来解释


On 2月28日, 上午9时16分, "Hu, Jiangtang" <jiangtan...@gmail.com> wrote:
> 北大生物统计教授(退休),孙尚拱,将要交付高教出版社的一部书稿,《应用多变量统计分析》,提到利用回归公式做"逆推理"的谬误,不妨转给大伙看看(直接贴过­来的,格式乱七八糟,对不住了,但愿大伙能看到些有用的东西):
>
>  *某些统计标准制定中的错误:**实例分析*
>
> *回归模型的应用中有两个方面:统计预测(statistical forecast)和统计控制(statistical control)。*
> (统计预测是回归模型的重要应用之一)。所谓预测就是根据回归模型,把自变量*x*代入回归模型对应变量*Y*进行估计,其波动范围可按求个体*Y*
> 值置信区间方法计算。*统计控制*(逆推理)则正好与此相反。*统计控制中的常用方法是利用回归模型进行逆估计,即*根据回归模型的变换,由应变量y
> 的取值范围反推自变量*x*的取值范围。
>
> *目前国内外文献及书籍中,基本上都是上述的逆推理法*
> (目前有的文献已经指出这种逆推理方法是不合理的。但是这个问题没有引起足够重视,在有关医学科研工作中基本都采用了逆推理方法。。本文对传统的利用回归模型进­行
> *统计控制*(逆推理方法)的理论提出质疑;通过实例,说明了传统方法在理论及实用中都是不妥的,并且提出了一种相对合理的统计方法。**
>
> *0、例子*(实例摘自:Bernard Rosner. Fundamentals of Biostatistics, 5th
> edition.Brooks,2000, P433. )
>
> 美国某家医院为了预测*低出生体重*(出生体重£2500g),现收集一组数据用于建立预报公式:
>
> 测量31名临产孕妇的尿中雌三醇浓度(mm/24hr)以及此后出生的婴儿体重(单位:100g)。测得数据如下:
>
> 雌三醇浓度(mm/24hr):
>
> 7  9  9     12  14  16  16  14  16  16  17  19  21  24  15 16  17  25  27
> 15  15  15  16  19  18  17 18  20  22  25  24
>
> 出生体重(100g,与上顺序对应):
>
> 25  25  25  27  27  27  24    30  30  31  30    31  30*  *28  32  32  32  32
> 34  34  34  35  35  34  35       36  37  38  40  39  43
>
> *问题*:雌三醇浓度取何值,能预测临产孕妇将会有低出生体重的婴儿?
>
> *一、传统的方法*:
>
> 以雌三醇为自变量(x),出生体重为应变量(y),建立线性回归模型:
>
> 出生体重的估计值(^y)=21.523 + 0.608×雌三醇               (1)
>
>          残差标准差=3.8211
>
> 把出生体重=25代入回归模型(1)式,得
>
>           25=21.523 + 0.608×雌三醇                         (2)
>
> 解得 雌三醇浓度值为
>
>          雌三醇= 5.7178 (mm/24hr)
>
> 因此,*预测法*就是:
>
> *当孕妇尿中雌三醇浓度**£**5.7178 mm/24hr**时,***
>
> *就预测出生婴儿体重会低于**2500g**。***
>
> *存在的问题:***
>
> *(1)**、考察实用性:*上述结果能给出诊断错误的概率?
>
> 专家们一般都不考虑! 实际上这是必须考虑的。要考察诊断错误概率,按回归理论,应计算应变量的置信区间(即正常波动范围)公式:
>
> *(见附件公式1)*
>
> 则 雌三醇(X0)=5.7178 (mm/24hr)时,对应的出生体重(Y0)的95%正常波动范围:
>
> 16.3 ~33.7  (区间中点是2500 克)
>
> 此结果表明:当雌三醇=5.8 (略大于5.7178mm/24hr)时,出生体重值低于2500克的机会高达50%,*即有一半的出生体重者诊断错误*
> !反之,当雌三醇=5.6 (略小于5.7178mm/24hr)时,出生体重值高于2500克的机会也近似于50%。因此,
>
> *上结果对于预测低出生体重实在是设有意义!***
>
> *(2)**、考察统计学上的合理性*:
>
> 我们能否把统计学中的回归公式当作普通的数学式子一样:比如1+2=3,自然的有2=3-1那样逆推?答案是'不可以!' 因为统计学的回归公式
>
> *y**的预报值**=ax+b*
>
> 在建立它时,*只能用**x**去拟合**y*,而不是同时拟合(x,y)。也就是说,回归公式的使用只能是单向的,它不应该当作'1+2=3,自然的
> 2=3-1'那样的可以双向使用!
>
> *二、合理的统计方法***
>
> 根据回归理论,上述实例应把 雌三醇 作为应变量,而以出生体重为自变量,从而建立线性回归模型。由上数据可得:
>
>  雌三醇的预报值= -2.335 + 0.611×出生体重,                         (3)
>
>       残差标准差 =3.8308,
>
> 当出生体重=25千克时,雌三醇预报值为
>
>    雌三醇= -2.335 + 0.611×25 =  12.940                              (4)
>
> 雌三醇 = 12.940时的95%下侧临界值为
>
> (*公式贴不过来*)=6.098
>
> *即雌三醇** <6.098(**单位**)**时,孕妇将出生**"**低体重**"**的婴儿,而且诊断错误率** < 5%**。***
>
> *三、一个严重的问题***
>
> 利用回归法得出的公式做逆推理从而找出需要控制的阈值,在国内外的实际工作中一直得到非常广泛的应用。但从本文可见,目前国内外对于类似问题的应用,普遍存在有­上述误区。问题的严重性在于国内外一直都在用
> (2)的逆推法制定世界及国内的食物营养、药品、毒品、环境及各种标淮!而由上讨论可见,已有的标准中的错误是太严重了(错误率50%)!
>
> --
> 胡江堂
> 北京大学软件与微电子学院06硕
> Jiangtan...@gmail.com
> 生活博客(读书、见闻):http://panshanghu.spaces.live.com/
> 技术博客(SAS、数据挖掘、数量金融):http://johnthu.spaces.live.com/
>
>  公式1.GIF
> 2K查看下载

raullew

unread,
Feb 28, 2008, 9:20:26 AM2/28/08
to ttnn BI 观点
我认为数据是有问题的,问题在于没有真实数据----即2500克以下的数据
所以只能用2500克以上的数据来检验了
现在取3000克以下的数据来检验
按照
雌三醇的预报值= -2.335 + 0.611×出生体重
可算出雌三醇预报值为15.995
下限值我不清楚怎么算,按照15.995与12.940之间的差距,似乎取6.098+(15.995-12.940)=9比较合适
那么我们看到,体重3000克以下的数据中
雌三醇小于9的,1条记录
雌三醇等于9的,2条记录
雌三醇大于9的,5条记录
雌三醇大于9而体重恰等于3000克的,4条记录

这个答案说明了第二种方法覆盖率过低

通过查看散点图,发现散点原本就比较发散,因此第一种方法错误率50%的原因在于数据本身就比较发散

On Feb 28, 1:52 pm, Qing <happys...@gmail.com> wrote:
> 这个案例确实很学术,我看了半小时,有点明白,不过也不是太明白。
>
> 教授说,第一种统计方法不好,因为最后验证的结果是诊断错误一半对一半,那只能说回归模型不好,得重新建啊,难道专家们用了那个模型得出个答案就不管了?这可有-点说不过去。第二种模型好,是否可能是因为数据本身更适合这样的模型呢?
>
> 不知道这个例子是不是还有非常长的论述,反正从这里并不能令人信服地证明教授的观点。
>
> 看起来文中统计预测、统计控制、逆推理是专门术语,不过对于其中存在问题的第一点,也就是实用性问题上,教授说第一种模型结论对预测低体重出生没有任何意义,这-本身恐怕也是一个没有意义的说法。如果要从实际效果说,低体重出生难道只是跟母三醇有关系,应该还有其他因素。所以,我觉得教授只谈第二个问题就够了----统计上-的合理性。
>
> 对于统计学,我不是很懂,所以不谈这个,只是从外行,最多也就是跟数据挖掘沾点边的程度来解读解读。
>
> 这个模型似乎在揭示一种因果关系,因可以导致果,但果不一定导致因,从这点看所谓逆推理的不合理性是正常的。但什么是"逆",恐怕是相对的。在这个例子里面,当-然假设母三醇是因,低体重是果。可是从数字来看,不对。结果,换个思路,假设低体重是因,母三醇是果(当然,由于先后关系,这并非时间上的因果),这个假设从统-计上是合理的,也就是说,如果我们知道是低体重的婴儿了,能够推理母亲的尿里面雌三醇小于多少。

jiutiaoj...@126.com

unread,
Feb 29, 2008, 8:38:32 AM2/29/08
to tt...@googlegroups.com
 统计学让人着迷,也让人恐怖啊! 一个字"难"!他会把你的脑子重新掳一遍,痛苦!
已 经 超 过 100 万 台 电 脑 安 装 了 网 易 有 道 免 费 英 汉 词 典 , 点 击 此 处 可 以 快 速 下 载

supper

unread,
Mar 1, 2008, 2:17:18 AM3/1/08
to tt...@googlegroups.com
我认为孙老师的观点是有道理的。
 
首先我考虑了这个一个事实:
通过产前雌三醇浓度来预测新生儿体重,这需要一个拟合模型,记作:雌-新
通过新生儿体重来验证产前雌三醇浓度,这需要一个拟合模型,记作:新-雌
 
那么这两个模型是否是等价的,互为反函数的?我认为不能等价,考虑一下最小二乘法拟合回归直线的过程,应该可以得出结论。当然,我也主观臆测下,如果这两个因素的线性相关性越来越强,那么通过这两个模型得出的结论应该会逐渐靠近(没有依据,瞎猜的)。
 
下面我们再来考虑一下这个业务问题:
 
问题:雌三醇浓度取何值,能预测临产孕妇将会有低出生体重的婴儿?
 
看起来,这仿佛是一个由雌三醇预测新生儿体重的问题,应该套用雌-新模型,但实际操作中,却应该是定好一个低体重婴儿的标准,然后来判断这个雌三醇的临界值,那么这其实就是一个由体重来判断雌三醇浓度的问题,应该适用新-雌模型,即应该由新生儿体重作自变量,由雌三醇浓度作因变量。
 
这在实际业务中,的确是个逆推理,因为一般会考虑产前孕妇雌三醇浓度多少,然后判断一下新生儿体重大概多少。但现在的业务问题需要这样逆推回去,想要知道新生儿体重偏低时候,产前孕妇雌三醇是个什么状态。传统做法值得存疑的地方在于,生硬的照搬使用了由雌三醇浓度预测新生儿体重的思路,直接固定这个模型的因变量(新生儿体重)来圈定自变量(雌三醇浓度)范围,这种做法的实际效用和人的初衷有所偏差(说悖离有点过了,或许在某些条件下应该还是有一定准确率的,否则人们也不至于用这么久也不废弃这种做法)。
 
但现在我有疑问:
按照孙老师提出的模型,严格依据统计理论,得到了体重2500的孩子他妈产前的雌三醇浓度的临界值了。那么我们使用这个临界值的时候,这个业务问题又变回了雌三醇预测孩子体重的问题了,那么由这个孩子体重拟合得到的雌三醇临界值的可信度是否又得打折扣了?或许这两种分析方法,都可以并存以作参考吧,但从理论上来讲,确实是有不同的前提,所以有这不同的建模的出发点和目的。
 
我的理解:相关性并不等同于因果,佛曰的因果关系太强了,经常出现的应该只是一种相关而已,或许要确定一个因果关系,那就得把所有的因都要列举,估计比较难。就像猪肉涨价和我体重降了,这两件事情不能称之因果,只是有关联而已。
 
ps:看完这个贴子的时候,我还专门找了以前一个学医的同学咨询下业务,想多了解下关于孕妇雌三醇方面的知识,结果此君谑道:"是不你娃又把哪个小Loli给推倒了?哈哈哈,没事,72小时之内服药应该还是可以挽回局面的。。。。" 以下省略,诸位都是读书人,高尚士也,我爆的些粗口也不便广布于众,以免被删贴,哈哈


 
2008/2/28, Hu, Jiangtang <jiang...@gmail.com>:

北大生物统计教授(退休),孙尚拱,将要交付高教出版社的一部书稿,《应用多变量统计分析》,提到利用回归公式做"逆推理"的谬误,不妨转给大伙看看(直接贴过来的,格式乱七八糟,对不住了,但愿大伙能看到些有用的东西):


某些统计标准制定中的错误:实例分析


回归模型的应用中有两个方面:统计预测(statistical forecast)和统计控制(statistical control)。(统计预测是回归模型的重要应用之一)。所谓预测就是根据回归模型,把自变量x代入回归模型对应变量Y进行估计,其波动范围可按求个体Y值置信区间方法计算。统计控制(逆推理)则正好与此相反。统计控制中的常用方法是利用回归模型进行逆估计,即根据回归模型的变换,由应变量y的取值范围反推自变量x的取值范围。

目前国内外文献及书籍中,基本上都是上述的逆推理法(目前有的文献已经指出这种逆推理方法是不合理的。但是这个问题没有引起足够重视,在有关医学科研工作中基本都采用了逆推理方法。本文对传统的利用回归模型进行统计控制(逆推理方法)的理论提出质疑;通过实例,说明了传统方法在理论及实用中都是不妥的,并且提出了一种相对合理的统计方法


0、例子(实例摘自:Bernard Rosner. Fundamentals of Biostatistics, 5th edition.Brooks,2000, P433.


美国某家医院为了预测低出生体重(出生体重£2500g),现收集一组数据用于建立预报公式:

测量31名临产孕妇的尿中雌三醇浓度(mm/24hr)以及此后出生的婴儿体重(单位:100g)。测得数据如下:

雌三醇浓度(mm/24hr):

7  9  9     12  14  16  16  14  16  16  17  19  21  24  15 16  17  25  27  15  15  15  16  19  18  17 18  20  22  25  24

出生体重(100g,与上顺序对应)

25  25  25  27  27  27  24    30  30  31  30    31  30  28  32  32  32  32  34  34  34  35  35  34  35       36  37  38  40  39  43

问题:雌三醇浓度取何值,能预测临产孕妇将会有低出生体重的婴儿?

 

一、传统的方法

以雌三醇为自变量(x),出生体重为应变量(y),建立线性回归模型:

(2)、考察统计学上的合理性

我们能否把统计学中的回归公式当作普通的数学式子一样:比如1+2=3,自然的有2=3-1那样逆推?答案是'不可以!' 因为统计学的回归公式

y的预报值=ax+b

在建立它时,只能用x去拟合y,而不是同时拟合(x,y)。也就是说,回归公式的使用只能是单向的,它不应该当作'1+2=3,自然的2=3-1'那样的可以双向使用!

 

二、合理的统计方法

根据回归理论,上述实例应把 雌三醇 作为应变量,而以出生体重为自变量,从而建立线性回归模型。由上数据可得:


--
胡江堂
北京大学软件与微电子学院06硕
Jiang...@gmail.com
生活博客(读书、见闻): http://panshanghu.spaces.live.com/
技术博客(SAS、数据挖掘、数量金融): http://johnthu.spaces.live.com/




--
The Glory and The Dream,Buried in The Life......

Hu, Jiangtang

unread,
Mar 1, 2008, 8:43:49 AM3/1/08
to bi
关于数据。孙老师说这是真实的数据,在临床中这类数据很难得。31个观测中只有一个记录的体重小于2500克,这在临床中也是有意义的,出生体重偏小的例子本来就不多。

Qing

unread,
Mar 4, 2008, 12:28:29 AM3/4/08
to tt...@googlegroups.com
我晕了,要崩溃。
到底雌三醇跟婴儿体重有没有关系?
 
supper说因果关系跟相关性不同,通常事情只是表现出相关性而不是因果,这到确实如此。不过我想从人们认知来看,相关性没有因果关系能够说服人,可能跟很多人的决定论思维有关系吧。人们对现象需要一种解释,现象是果,解释是因。虽然可以说没有绝对正确的解释,但大差不差,人们能够接受,也就行了(也许,这就是为什么人那么容易被忽悠的原因)。比如,在我们的工作当中,如果要将一个数据挖掘模型解释给客户,如果用一种因果关系来表达,是非常容易理解的。而在传统的啤酒尿布例子里面,虽然模型确实得出的只是一种相关性,但恐怕也是因为在最初的宣传文章里面将这种相关性用因果关系解释了一下,比如那些买尿布很多是出为人父的男人,顺便买了啤酒。这就构成因果,虽然从没有听说被验证过。
 
一般来说,一种解释听起来合理,就容易接受。所谓合理,也是一种心理作用,你的答案说到人心里面去了,他就接受。如果你的答案能够说到大部分人心里面去,就能被大部分接受,就轻松成了真理。比如在人类的早期,雷电的原因,那就是鬼神的杰作,是一种很容易被接受的解释。现在不简单,但同样,我们接受了人类是猴子进化过来的的说法,也有很多人接受世界万物是上帝创造的说法。
 
这样说探求因果关系似乎是一种纯粹的心理研究了。但我们搞BI的不能忽悠人,总还得用一些数据说话。但不管如何,最终目的是什么,是辅助决策,就是帮助决策者决定下一步行动。
 
如何辅助呢,告诉他两个事物是相关的,这确实是一种严谨而科学的说法。但,对于决策者来说,不需要。因为他面临的选择就是如果这样,会怎样?如果那样,又会怎样?就是一个简单的因果。这些因果可能是不准确的,但他够简洁,一听就懂。"因为搞了这个营销活动,所以导致收入下降了。"听了这个因果句式,他就得小心,这种活动少搞为妙。
 
得出因果关系是一个抽象的过程,虽然导致一个果的因素不计其数,但主因是什么,通常,我们只需要了解这个主因也就够了。
 
至于supper的体重跟猪肉价格的相关。我想大家很难相信是因为体重下降导致猪肉价格上升的说法吧(当然,如果有人引用那个蝴蝶的混沌理论,那就太玄乎了),如果我们解释,因为猪肉价格上升,supper从此多吃青菜少吃肉,结果,体重下降。这个解释能够被接受的程度要更高些。但那种解释是对的呢?谁知道,谁敢说谁的是真理,谁就是忽悠人。
 
虽然这个话题有些扯,但我觉得涉及到一些BI的立足之本。BI是一套管理数据,分析数据,从数据里面找规律的过程。他的目的明确——辅助决策。从数据里面找出客观规律,形成知识,不是目的,而是是没有止境的过程。


 
2008/2/29 supper <suppe...@gmail.com>:
我认为孙老师的观点是有道理的。
...

Qing

unread,
Mar 4, 2008, 12:35:38 AM3/4/08
to tt...@googlegroups.com
江堂,如果这是真实的数据,那么是不是这个例子真的说明不了任何问题?不论是最终的结论,还是从统计学上合理的方法。
 
31个观测里面只有一个体重小于2500,如果这是个异常情况怎么办?
2008/3/1 Hu, Jiangtang <jiang...@gmail.com>:

supper

unread,
Mar 4, 2008, 5:05:49 AM3/4/08
to tt...@googlegroups.com
我觉得雌三醇和婴儿体重之间不存在因果关系,因为不可能说临产改变下雌三醇浓度,生出来孩子就能多条腿的。我们再做一种夸张的假设,即便医学上证明了真的临产雌三醇浓度可以跟很多因素一起决定婴儿体重,我们说雌三醇和婴儿体重之间存在因果决定关系,这样也多了业务依据。即便医学上证明雌三醇跟婴儿体重之间没有决定关系,那么我们通过积累数据,表明了两者之间的相关关系之后,我们看着拟合曲线,可以解释说雌三醇这么变,婴儿体重会那么变,这种解释方式本来就是一种因果方式的解释了,不论他们本来有没有因果吧,反正大家能接受这种解释就可以了。所以Qing不必担心,怎么都好解释的,哈哈


2008/3/4, Qing <happ...@gmail.com>:
我晕了,要崩溃。
到底雌三醇跟婴儿体重有没有关系?

 
 
2008/2/29 supper <suppe...@gmail.com>:
我认为孙老师的观点是有道理的。
...


Reply all
Reply to author
Forward
0 new messages