幂律分布的文献小结

23 views
Skip to first unread message

lingfei wu

unread,
Mar 6, 2010, 4:46:02 PM3/6/10
to ci-en...@googlegroups.com
这里是我做的一个文献小结,列举了十篇互联网、金融和语言学学方面的可推导出幂律的理论模型,希望能在生物学的数学模型之外,为大家提供一些额外的参考。

--
Wu  Lingfei
wlf8...@gmail.com
Dept. of Media & Communication
City University of Hong Kong

幂律分布的文献小结.pdf

东方隐

unread,
Mar 6, 2010, 11:22:39 PM3/6/10
to ci-en...@googlegroups.com
我关于幂律的一点心得:
 
首先幂律是硬科学,的确没有那么简单,现在争论还很多,也有许多同仁如计算士是做专业研究的,因而才有必要和精力去研读大量的相关资料,不过我们外行一样可以看看热闹,发些议论,内行觉得对可以听,觉得不对则可以一笑了之,有时间也可以继续讨论。
 
首先幂律研究可以分成两大块:实证性和解释性的工作(现在还没有一言九鼎的定理出现,只有经验公式,所以只能是解释,不能说是证明,但是解释也不容易:比如Jake大人刚刚做的切绳子模型,就只能说是解释的解释)。
 
实证性的工作就是搜集大量的数据,在双对数坐标上画图,看分布是否是直线。这个工作是很麻烦的,一是数据量大而且很多原始数据如中国的各省GDP之类本身就是编出来的,不是真实的;二是人会犯先入为主的错误,你想看到什么就会真的看到什么。而且许多分布都是近幂律的,画在坐标纸上面都是一根直线,再说实际数据本身有误差,也不可能非常大,所以很难把纯幂律和类幂律如对数正态等分布区分开来。不知道对于这个问题除了图形拟合之外有什么好办法,换句话说,幂律和非幂律分布,除了图形不同之外还有什么本质的区别吗?
 
解释性的工作又可以分成两条道路,一是用随机过程解释,二是用限制条件解释。这类似于一个力学过程,你可以用动力学微分方程分析,也可以用能量守恒来分析,各有各的优点。
 
如果归纳一下,在计算士的文献小结中提到的随机过程派可以包括(很多语句是摘自原文的):
 
1、Price的论文引用数分布:“引文增长网络结构,在该种结构下,被引用率高的文献的被引用次数会越来越多,因此最后形成论文被引用次数的幂律度分布。”
 
2、Simon对于语言学中间Zipf律的解释,即“每次增加一个”的“单词增长演化”语言学模型假设。另外Miller的“随机打字”模型也是类似的概念。
 
3、Barabasi的“优先链接”的模型,在这个模型中,每次新加入网络的节点倾向于把自己链接分配给已有较多链接的节点,这样,一个随机链接的初始网络最终将演化出具有幂律度分布结构的网络(近年来的复杂网络研究,几乎都是受到这种思路的影响)。
 
4、Huberman等人提出的用户随机跳转浏览网页的互联网增长模型,这也就是一堆代表系统动荡的随机变量相乘的过程:“网站拥有的网页数的对数增长率满足对数正态分布,满足这种分布的增长最终会导致整个互联网内网站拥有的网页数呈幂律分布。”同时搜索引擎得到的网页搜索数据,也证明其搜索到的网页确实呈现幂律分布。
 
以上的研究都提出了一个系统的分步演化模型,通过随机过程来解释观察得到的幂律分布的。但是也仅仅是模型,还很难说实际上的幂律就真的是因为这些过程得到的,原因是因为实际情况下的分布很少是纯的幂律或者纯的指数,大抵都是各种分布的混合。因而Mitzenmacher才提出将对数正态模型和幂律分布模型联系在一起,并指出了前者向后者转化的条件。这样的思路是很值得我们参考的。Jake大人曾说,如果提出一个终极模型,我们不仅仅要从中得到幂律,还要能得到各种其他的分布和混合分布,并指出在什么时候分布可以用幂律来近似,什么时候又不可以。现在这样的模型不要说有,连听都没有听说过。
 
下面的是限制条件派,这派吸取了统计力学的理念,主张忽略具体过程,直接从熵最大和简单的限制条件得到分布,包括:
 
1、Mandelbrot用信息熵来解释Zipf律,优点在于信息熵可以在非平衡态热力学和统计学的框架下得到更好的理解,代表的是一种最可能的状态,而并不局限于的真实信息。这同Simon的过程解释构成了鲜明的对比。
 
2、尽管Price主要以机制来解释引文的幂律分布,他也利用了“论文平均引文数保持不变”的假说,在他的解释中间,既包括过程派也包括限制派的概念。这也说明两种做法本质上是相通的。
 
3、Sole等人提出的最省力原则,并在信息论的框架下给出了这个概念的具体数学定义。语言交流是Speaker和listeners互相博弈的框架,利用熵最大和熵最小作为限制条件,即可得到单词长度的幂律分布(这篇论文贫僧认为很有价值,需要仔细研究一下)
 
4、Eugene Stanley等人提出,在金融市场中间,通过给定限制条件,即交易员要最大化利润(捏股票时间长,赚的可以多,但是风险也大,总之就是高风险高产出和薄利多销的博弈),以最大化整个过程中的总利润为限制条件,可以推导出金融数据的幂律分布(股票对数收益率、股票交易价格和股票交易量等)。
 
值得注意的是,这两种学派的长处各有不同,限制条件派在难以确定过程细节的情况下有优势,可以在不了解过程的情况下对结果作出统计性的分析。但是正因为不了解过程,也很难进行具体的预测(如金融市场,上面的例子只能告诉我们股票涨落的分布,不能告诉我们何时会涨,何时会跌);
 
另一方面,过程派能够把一个模型里面的具体过程分析的很清楚,让你能够对事情的来龙去脉有一个清楚的了解,心里有底,但是根据一个简单的随机过程导出显式的分布公式绝非易事,大多数时候尽管过程非常简单,分布却说不清的。比如随机切绳子,再从切出的绳子中间随机选出绳子继续切,这个过程虽然简单无比,但得到的分布究竟是什么,却不能通过数学公式能够描述。所以现在大家都在往有限的几个数学分布上面靠,可能并非因为实际情况如此,而是因为数学还不够先进,对于太多的实际问题缺乏好的统计工具来描述的关系。
 
最后要对Jake大人、王公、和计算士兄弟表示诚挚的感谢,这几天他们很辛苦,写了不少材料出来,贫僧通过阅读这些材料,对随机过程和相关应用的理解深刻了不少。上面就是我的总结,希望对大家也有帮助。
--
You received this message because you are subscribed to the Google Groups "热力学与进化论" group.
To post to this group, send email to ci-en...@googlegroups.com.
To unsubscribe from this group, send email to ci-entropy+...@googlegroups.com.
For more options, visit this group at http://groups.google.com/group/ci-entropy?hl=en.

lingfei wu

unread,
Mar 7, 2010, 1:08:01 AM3/7/10
to ci-en...@googlegroups.com
谢谢和尚的评论。不过,索引只是索引,不是知识本身。如果有时间,有兴趣,还是更推荐看原文论文。这样对事情的判断会更准确。
 
Newman给出了估计幂指数的比较好的方法(基于最大似然估计),批判的就是简单的双对数线性拟合。现在做幂律的人,在正式的论文中,已经很少人会简单地这么做了。统计分布的假设检验是一门很精确的科学,不宜简单地归结“图形拟合”,“画 出来看看”。
 
Simon和Miller的模型完全不同。
 
Price的模型的“论文平均应用率不变”虽然也是“限制条件”,但其整体思路和“目的论”的“优化”(optimization)方法如最大熵,存在本质不同。
 
 
欢迎大家补充,尤其是本索引中被遗漏的重要论文(据我所知,起码还有一个经济学家和一个社会学家的主张我没有放进来,因为我没有看过他们的原文paper)。建设科学2.0,众人拾柴火焰高。

jake

unread,
Mar 7, 2010, 8:49:24 AM3/7/10
to ci-en...@googlegroups.com
多谢分享,不过不知道你这些总结是从哪个角度讲的?如果从幂律的生成模型来看,至少还有自组织临界性这一大块没有提到呢。


在2010-03-07,"lingfei wu" <wlf8...@gmail.com> 写道:
-----原始邮件-----
发件人:"lingfei wu" <wlf8...@gmail.com>
发送时间:2010年3月7日 星期日
收件人:ci-en...@googlegroups.com
主题:幂律分布的文献小结
--
You received this message because you are subscribed to the Google Groups "热力学与进化论" group.
To post to this group, send email toci-en...@googlegroups.com.
To unsubscribe from this group, send email to ci-entropy+unsub...@googlegroups.com.

lingfei wu

unread,
Mar 7, 2010, 10:48:07 AM3/7/10
to ci-en...@googlegroups.com
这个主要是和人类行为相关的模型,经济决策、语言学、互联网用户行为等。也有一些是从纯粹数学模型出来的,但都或多或少可以用来描述人类行为。
 
是的,从物理学这块,应该有相当大一块。话说barabasi据说就是从凝聚态物理进入复杂网络研究的。
 
期待大家补充,完善,最好是能发掘出那种看似不着边际,或者纯粹就是个物理-数学模型,但用到解释人类行为上却令人觉得眼睛一亮的模型。

To unsubscribe from this group, send email to ci-entropy+...@googlegroups.com.

For more options, visit this group at http://groups.google.com/group/ci-entropy?hl=en.
Reply all
Reply to author
Forward
0 new messages