我关于幂律的一点心得:
首先幂律是硬科学,的确没有那么简单,现在争论还很多,也有许多同仁如计算士是做专业研究的,因而才有必要和精力去研读大量的相关资料,不过我们外行一样可以看看热闹,发些议论,内行觉得对可以听,觉得不对则可以一笑了之,有时间也可以继续讨论。
首先幂律研究可以分成两大块:实证性和解释性的工作(现在还没有一言九鼎的定理出现,只有经验公式,所以只能是解释,不能说是证明,但是解释也不容易:比如Jake大人刚刚做的切绳子模型,就只能说是解释的解释)。
实证性的工作就是搜集大量的数据,在双对数坐标上画图,看分布是否是直线。这个工作是很麻烦的,一是数据量大而且很多原始数据如中国的各省GDP之类本身就是编出来的,不是真实的;二是人会犯先入为主的错误,你想看到什么就会真的看到什么。而且许多分布都是近幂律的,画在坐标纸上面都是一根直线,再说实际数据本身有误差,也不可能非常大,所以很难把纯幂律和类幂律如对数正态等分布区分开来。不知道对于这个问题除了图形拟合之外有什么好办法,换句话说,幂律和非幂律分布,除了图形不同之外还有什么本质的区别吗?
解释性的工作又可以分成两条道路,一是用随机过程解释,二是用限制条件解释。这类似于一个力学过程,你可以用动力学微分方程分析,也可以用能量守恒来分析,各有各的优点。
如果归纳一下,在计算士的文献小结中提到的随机过程派可以包括(很多语句是摘自原文的):
1、Price的论文引用数分布:“引文增长网络结构,在该种结构下,被引用率高的文献的被引用次数会越来越多,因此最后形成论文被引用次数的幂律度分布。”
2、Simon对于语言学中间Zipf律的解释,即“每次增加一个”的“单词增长演化”语言学模型假设。另外Miller的“随机打字”模型也是类似的概念。
3、Barabasi的“优先链接”的模型,在这个模型中,每次新加入网络的节点倾向于把自己链接分配给已有较多链接的节点,这样,一个随机链接的初始网络最终将演化出具有幂律度分布结构的网络(近年来的复杂网络研究,几乎都是受到这种思路的影响)。
4、Huberman等人提出的用户随机跳转浏览网页的互联网增长模型,这也就是一堆代表系统动荡的随机变量相乘的过程:“网站拥有的网页数的对数增长率满足对数正态分布,满足这种分布的增长最终会导致整个互联网内网站拥有的网页数呈幂律分布。”同时搜索引擎得到的网页搜索数据,也证明其搜索到的网页确实呈现幂律分布。
以上的研究都提出了一个系统的分步演化模型,通过随机过程来解释观察得到的幂律分布的。但是也仅仅是模型,还很难说实际上的幂律就真的是因为这些过程得到的,原因是因为实际情况下的分布很少是纯的幂律或者纯的指数,大抵都是各种分布的混合。因而Mitzenmacher才提出将对数正态模型和幂律分布模型联系在一起,并指出了前者向后者转化的条件。这样的思路是很值得我们参考的。Jake大人曾说,如果提出一个终极模型,我们不仅仅要从中得到幂律,还要能得到各种其他的分布和混合分布,并指出在什么时候分布可以用幂律来近似,什么时候又不可以。现在这样的模型不要说有,连听都没有听说过。
下面的是限制条件派,这派吸取了统计力学的理念,主张忽略具体过程,直接从熵最大和简单的限制条件得到分布,包括:
1、Mandelbrot用信息熵来解释Zipf律,优点在于信息熵可以在非平衡态热力学和统计学的框架下得到更好的理解,代表的是一种最可能的状态,而并不局限于的真实信息。这同Simon的过程解释构成了鲜明的对比。
2、尽管Price主要以机制来解释引文的幂律分布,他也利用了“论文平均引文数保持不变”的假说,在他的解释中间,既包括过程派也包括限制派的概念。这也说明两种做法本质上是相通的。
3、Sole等人提出的最省力原则,并在信息论的框架下给出了这个概念的具体数学定义。语言交流是Speaker和listeners互相博弈的框架,利用熵最大和熵最小作为限制条件,即可得到单词长度的幂律分布(这篇论文贫僧认为很有价值,需要仔细研究一下)
4、Eugene
Stanley等人提出,在金融市场中间,通过给定限制条件,即交易员要最大化利润(捏股票时间长,赚的可以多,但是风险也大,总之就是高风险高产出和薄利多销的博弈),以最大化整个过程中的总利润为限制条件,可以推导出金融数据的幂律分布(股票对数收益率、股票交易价格和股票交易量等)。
值得注意的是,这两种学派的长处各有不同,限制条件派在难以确定过程细节的情况下有优势,可以在不了解过程的情况下对结果作出统计性的分析。但是正因为不了解过程,也很难进行具体的预测(如金融市场,上面的例子只能告诉我们股票涨落的分布,不能告诉我们何时会涨,何时会跌);
另一方面,过程派能够把一个模型里面的具体过程分析的很清楚,让你能够对事情的来龙去脉有一个清楚的了解,心里有底,但是根据一个简单的随机过程导出显式的分布公式绝非易事,大多数时候尽管过程非常简单,分布却说不清的。比如随机切绳子,再从切出的绳子中间随机选出绳子继续切,这个过程虽然简单无比,但得到的分布究竟是什么,却不能通过数学公式能够描述。所以现在大家都在往有限的几个数学分布上面靠,可能并非因为实际情况如此,而是因为数学还不够先进,对于太多的实际问题缺乏好的统计工具来描述的关系。
最后要对Jake大人、王公、和计算士兄弟表示诚挚的感谢,这几天他们很辛苦,写了不少材料出来,贫僧通过阅读这些材料,对随机过程和相关应用的理解深刻了不少。上面就是我的总结,希望对大家也有帮助。