每当天气好的时候,肥仔都喜欢一个人在阳台,仰望星空。
宇宙很大,仅在银河系,就有一千亿颗以上的恒星,而离我们最近的恒星太阳,光也要走8分多钟,第二近的恒星到我们也有4光年多,算成英里那得数不清多少零了。
有一天晚上,肥仔坐在阳台上吹晚风的时候,突然就呆了,因为发现了一个很严重的问题,一个悖论,令肥仔百思不得其解:
在晴朗的夜空随便指一颗恒星,其跟地球的距离大概是高度随机的,因为恒星距离地球横跨若干个数量级,最近的只有几光年,远的比如银河系,直径大约就有十万光年。
就算不理会其河外星系,这随机度也足够了,至少够我下面这个实验:
这实验测定该恒星和地球距离,用英里来表述,则此数字的最高位,感觉应该是个纯随机数,在1-9之间均匀分布。 这结论应该没什么问题,你凭啥说3百亿多英里就多于或者少于6百亿多英里的。
或者,再加一个前提,假设宇宙所有恒星均可见,这样就避免了“可视范围太窄”这样的非数学因素捣乱。
这结论出来后,再把这星地距离从英里换算为公里,就很有意思。
英里乘以1.6得到公里数,这大家都知道。
最高为9/8/7和部分6开头的英里数,换算为公里之后,其最高位都变成了1,比如,7亿英里变成11.2亿公里,大家不信的话可以可以自己拿计算器计算一下。
如果英里数的最高位(以下简称m)是1-9均匀分布,那么公里数的最高为(以下简称k)就不是均匀分布了,而且差别很大。k是1的概率,远高于是其他任意一个数字的概率
这显然是荒谬的。因为英里和公里在这里是人工随便选择的,并不具有特殊意义,按照上述逻辑,如果我一上来就用公里测量的话,k就是应该符合1-9均匀分布的那一个。
问题出在哪里?
后来肥仔苦苦思索,四处查找,终于找到了一个很奇怪的有悖于我们人类直觉的定律——本福特定律。
本福特定律
这个定律是由一个叫弗兰克·本福特的美国电气工程师发现的。该定律大致意思是说,
在众多真实数据中,以“1”为首位数字的数出现的概率约占总数的三成,接近期望值1/9的3倍。
我们举一个例子说明它。
设想某银行有1000多个储蓄账户,存款金额不等。奇怪的是,本福特定律对这些存款金额本身并不感兴趣,而对这些数值的开头第一位有效数字(非零)颇为中意。
我们都知道,一个数的第一位(非零)有效数字可能是1到9之间的任何一个。现在,如果我问,在刚才那个银行的上千个存款数据中,第一位数字是1的概率是多大?
无需多思,大部分人都会很快地回答:应该是1/9吧。因为从1到9,9个数字排在第一位的概率是相等的,每一个数字出现的概率都是1/9,大约11%左右。
从这种听起来十分正常的思维方法得出的结论却与许多真实数据所遵循的规律不同。
人们发现,很多情况下,第一个数字是1的概率要比靠直觉预料的11%大得多。数字越大,出现在第一位的概率就越小,数字9出现于第一位的概率只有4.5%左右。
各个数字出现在第一位的概率遵循如下图所示的概率分布。从图中可以看出,首位数字为1的概率可达30.1030%,而首位数字为9的概率仅为4.5757%。
随后,本福特收集并研究了两万多个统计数据,包括河流面积、人口统计、分子及原子重量、物理常数等多种来源的资料,并分成20组。数据来源虽然千差万别,却基本上符合本福特定律,如下图所示的数据表。
表中最后一行的数值,是根据本福特概率公式计算得到的每个数字出现于首位的概率,读者可以将它与真实数据相比较。
然后,从现象推导出本质,本福特从数据中总结出首位数字为n的概率公式是: