探讨第四种对称性的缘起
随着复杂系统研究和网络科学的兴起,研究长尾分布成为非常火热的题目,但是在我看来,各种人为制造长尾分布的所谓演化机制,如优先链接 (Yule 1925; Simon 1955; Price 1976; Barabasi 1999) ,排队论(Barabasi, 2006),随机增长模型(Huberman, 1999; Mitzenmacher, 2003) 等,都如隔靴挠痒,偏题甚远。判断的标准很简单,如果一个新的复杂系统的理论或者模型,没有和迄今为止人类最主要的科学之根,基础物理,联系在一起,只能解释新现象,不能包含旧现象,可以判断这个理论不会生长太久。以上述诸种模型为例,不要说和基础物理对话,就是连为什么系统不是走向正态分布而是走向长尾分布,都不在其回答范围内,使读者看完论文产生一种“长尾分布就是好,就是好来就是好”的感觉,而没有豁然开朗,一通百通的悟道感。
那么,有没有一种思路,可以从基础物理来理解长尾现象呢?
有的,这个思路就是“标度对称性”。
第四种对称性:标度(缩放)对称性原理
1918 年德国数学家艾米·诺特(A·E·Noether)提出著名诺特定理(Noether theorem):作用量的每一种对称性都对应一个守恒定律,有一个守恒量。从而将对称和守恒性这两个概念紧密联系在一起。
目前为止对称性及其更细致的推广形式局域对称(作用量随时空变化)和全局对称(作用量不随时空变化)在群论的指导下,通过外尔,杨振宁等人的推广工作,在现代物理学中得到广泛的应用。
我想提出的一点思考是,目前为止,宏观对称似乎已经被研究完了,就是时间平移、空间平移和空间旋转三大对称(为什么时间没有旋转对称?因为时间是一维的吗?)。其他的对称都是描述微观世界的。现代物理基本上都是在研究微观的各种对称性及其破缺。
但其实我觉得,还有一个对称不但在我们的宏观世界中处处存在,我们其实利用这种对称性干了很多事,就是没有开宗明义地提出来(在笔者及其有限的知识范围内)。
这种对称可以称之为“标度(缩放)的对称性”。
标度对称原理可以有两种表述形式,一种就是作用量在时空缩放下保持不变。这里的作用量和三大对称一样,被定义为三维空间里的拉格朗日函数L(q, q‘)。牛顿力学里的伽利略变换和电动力学里的洛伦茨变换(后来被爱因斯坦推广到四维时空里)都不能满足这种缩放不变性,所以,需要重新定义一种新的变换。但我认为这种古典的定义方式严重限制了这个伟大原理的应用范围,因为我们研究的许多复杂系统,例如互联网、金融市场,都不是在经典的四维时空下演化的。所以我建议采取另一种定义:作用量在被研究对象的数量规模倍增(减)下保持不变。
什么意思呢?就是说我研究一百个粒子的系统,它具有某种性质,研究一万个粒子的系统,它还是具有类似的性质。这个朴素的表达很熟悉吧?其实就是广义中心极限定理。狭义中心极限定理说,一堆独立同分布的变量x,不管你原来是什么分布,加到一起变成更大的变量y,y趋近于正态分布;
广义中心极限定理说,前面那句话只说对了一半,如果是某些特殊情况,例如x的方差无限,y不是趋近于正态分布而是趋近于某种尾部具有 p ~ |x| ^ - (alpha+1) (0 < alpha < 2)性质的分布(levy stable distribution),也就是长尾。说是尾部,取了对数坐标之后左边头部的区域太小,所以忽略这个时有时无的小弯头,基本就是一条直线的幂律分布。
到了这里长尾的问题好像是回答了(所以与热衷谈长尾的人不同,一些了解levy stable distribution的人走向另一个极端,觉得这个问题不值一提),但其实没有,还非常不解渴。方差有限就合并(aggregation)成正态,方差无限就合并成幂律,这个答案看起来更像是分类学而不是什么深刻的洞察。我们还需要找到不是简单分类,而是把两个极端在更深层的地方联系在一起回答的答案。
接下来就到了stable law,其实stable law已经非常接近“标度对称性原理”了。stable law说,存在这样一些分布(stable distributions),它们在合并的过程中重复自身。就从这个非常抽象的定义出发,就可以得到这些分布的具体形式(这种思路非常像从时空对称性的抽象要求利用变分法解出拉格朗日函数),因为小变量合并成大变量的过程表达为概率函数的卷积,后者可以表达为傅里叶变换后概率函数(其实就是特征函数)的乘积,从一个特征函数 不断乘以自己不变这个不动点要求可以解出这个特征函数的具体形式,再通过傅里叶变换得到概率函数。
包括正态分布在内的stable distributions,都满足同一个scaling性质(请注意这不是什么“发现”,而是我们一开始的要求)
如果y是n个独立同分布的, 均值为<x>的变量x加总而成,(y - n <x> ) / n ^ - alpha 的分布与x-<x>的分布完全相同。
把这句话表达成严格一点的数学,就是N^alpha*P(y)~ P (x / N^alpha ), 正如
这篇文章给出的。
【怎么检验这个“分布完全相同”呢?就是把x的分布画出来,把y的分布画出来,这个时候两者是不一样的,例如x为正态分布N(2,2)时,每个y由10个x加总而成,y则为正态分布N(20,2^-2),y的分布要比x的分布右移,且更矮胖。但对y进行处理变成(y - n <x> ) / n ^ - 2 , 对x处理成 x-<x>,两者个分布的数据点就重叠到一起。
其实这个过程还可以更严格些,如果考虑的x的方差sigma,(y - n <x> ) / (sigma*n) ^ - 2 的分布与(x-<x>)/sigma^ - 2的分布都重叠到标准正态分布上。如果考虑这种严格的广义形式,那么有
(y - n <x> ) / (sigma*n) ^ - alpha ~ S (1, alpha, beta, 0),其中S为stable distribution, alpha=2时代入stable distribution的表达式得到正态分布概率函数。】
在上述表达式中,如果标度指数alpha=2,那么它说的就是狭义中心极限定理,对应着正态分布;apha不等于2,就是广义中心极限定理,对应着各种长尾分布。
所以,scaling并不是什么特殊的东西,它是一种对称性要求,这种要求使得与系统对象联系的某个作用量,在系统的规模变化时保持不变(从基础物理来说,合并可视为重整化群的一种变换,就是在处理系统规模的变化问题)。无论是正态分布,还是长尾分布,都是满足该对称性要求的产物。
既然正态分布和长尾分布都满足加总不变性,为什么有时候标度对称性产生正态分布,有时候又产生长尾分布呢?
这里就很深刻了,因为aggregation只是重整化群的一种变换,或者说,只是一种标度缩放形式。其他的变换,例如mixture, maximization, marginalization,也是标度缩放的表达。在实际系统中aggregation的例子不必说了,mixture例如互联网中信息资源的生产和流动,就是把不同节点在不同时间里制造的资源放在一起看,来源于不同节点的可能是相互独立,但是不同分布的,这时候其实就是mixture的情况,把相差甚远的不同分布(加权)合并成同一个分布; maximization的例子如考察河流水量,股票价格,我们常常要计算最大最小值,因为它们对均值的影响太大了,所以这种极端涨落的情况相当于说从一个分布里取极端值得到的另一个分布;marginalization的例子在社会系统里很常见,考察一个变量在一堆其他变量的影响下的边际分布。
对于这四种标度缩放操作(aggregation, mixture, maximization, marginalization),正态分布只满足第一种和第四种(现在很清楚为什么传统社会科学里只需要正态分布就搞定大多数数据了)下的不变性,而长尾分布(levy stable distributions)四种都满足。
吝啬的大自然总是选择比较简单的模型,所以,在只需要满足第一种和第四种标度缩放不变性的情况下,大自然就把正态分布拿出来,也就是,alpha=2这个极端情况就够用了,很好使了。在要满足第二种或第三种,甚至是同时满足四种不变性的情况下,还是只能上长尾分布。实际上,因此
这篇文章把长尾分布称为(a distribution that is)
more "normal" than normal。
标度(缩放)对称性对应的守恒量是什么?
为什么这里要讲“系统”呢?因为以前的三大对称,时间平移、空间平移和空间旋转,对应的都是单个粒子(微观动力系统)。无论是苹果还是地球,被抽象成单个粒子后,就只有一个质量属性m,根本没有“规模/数量”这个属性,而我们这里在对付的就是“规模/数量"这个属性,这是(多粒子)系统才有的属性。
我们知道,根据诺特定理,对称性与守恒量密切联系。时间平移对应着能量守恒、空间平移对应着动量守恒,空间旋转对应着角动量守恒,那么标度对称性对应着什么量的守恒呢?
我认为是信息量守恒。最朴素的看法,把分布的信息熵算出来,分布不变,其信息熵亦不变。
被遗忘的对称
为什么说标度对称性是一种”被遗忘的“对称?因为我们一直以来都在利用和研究这种对称,但没有系统性地提出来。上述的中心极限定理及其狭义形式应用之广就不必说了,可以说有数据、有统计的地方,就有这个玩意儿。生物学、医学、社会科学、无不建立在这个基础上。物理学里,最早的热力学到统计力学,尤其是相变和渗流模型等,奠定了这种对称性的唯象基础,后来的重整化群,其实也是在应用这种对称性。 通信工程,计算机图像处理里的傅里叶变换,频谱分析、小波变换,也与这种对称性密切相关。数学的一个怪异分支,分形几何,就是在制造满足标度对称性的人造物。
遗留问题
最小作用量(信息)原理的具体形式:
现在,我们只是提出了标度对称性作为一种基本的对称,但很多工作还要继续完善。从三大对称的要求引申出拉格朗日作用量不变(最小作用量原理),用变分法解出拉格朗日函数的具体形式,是非常成熟的过程。虽然在标度不变上,也有类似的工作,例如最小相对熵原理,但还不是很成熟,其物理意义也不明确。
标度对称性原理与自指的关系:
了解自指的人一眼就可以看出,标度对称性其实已经在自指的思想里被很简洁地表达了。前面提到的(红色斜体字)原理,其实和
Quine这个数学/逻辑学结构很像。如果说Quine原理大家不熟悉,那么了解lisp和lambda函数的人知道,有一种东西叫
Y combinator, 它是Quine,或者说fixed point combinator的一种实现形式,对于任意一个函数f,一旦Y combinator: g附身,就会有g(f) = f(g(f))。从计算理论的角度,Y combinator 使得一个非常基础的,像lisp这样的语言可以创造出能调用自身的函数,实现各种递归计算。
g(f) = f(g(f))这个数学形式,和N^alpha*P(y)~ P (x / N^alpha ), 有着异曲同工之妙,两者都是某种不动点定理。前者是递归,或者说,一切计算的基础(丘奇-图灵定理),后者是广义中心极限定理,这暗示着统计与计算科学有着相同基石,而它们本质上都是物理学里的第四种对称性,标度对称性的体现。
标度对称性与量子力学的关系:
标度对称的思路,其实在量子场论(QFT)里也
已经有了,也是不动点定理作用到
耦合参数(coupling parameter)上的结果。要使QFT满足标度对称性,就要使耦合参数为常数。耦合参数这个东西,其实是经典理论里的拉格朗日量的一种拓展。引入了量子力学之后,标度对称性可能可以得到更充分的理解。
计算士 Jul.22, 2012
--
Wu Lingfei
wlf8...@gmail.comDept. of Media & Communication
City University of Hong Kong