100字范文 > mysqlit根据稀有值随机选择_姓氏越稀有越有可能成为精英姓氏?

mysqlit根据稀有值随机选择_姓氏越稀有越有可能成为精英姓氏?

时间：2022-05-20 21:58:57

在知乎上看到这么个答案/question/32094733/answer/242248576，大概是说，有人分析了清代江南全部两万多名举人名单以及从清代灭亡到当地的名牌大学生名单，通过分析他们的姓氏占比来找出最精英的姓氏。如果这个姓氏中的举人、名牌大学生所占比例高于总人群平均值的五倍，则认为这个姓氏是精英姓氏。最终找到的精英姓氏是诸，竺，茅，濮，裘，巢，恽，端木，钮，忻，萨，笪，宓。这些姓氏都相对比较少见（注意，这已经是精英姓氏了，所以更容易出现在人们的视野里），有些甚至一般人都不认识。然后这个答案得到结论：姓氏越稀有，越有可能成为精英姓氏。

这个结论其实有概率论上的解释。

一个小家族内部，由于耕读传家的缘故，成员能否成功确实很不独立。一个读书人的儿子从小就能接触到各种书籍，成为精英的概率远高于一个文盲农民的儿子。但从整个江南考虑，同姓氏的各个小家族之间就相对独立。于是，一个姓氏可以抽象成为一堆独立的小家庭的总和。每个小家庭的精英程度是一个随机变量，都服从同一个分布。

一个有n个小家庭的姓氏的平均精英程度是

, 期望是 , 方差是 . 所以姓氏的精英程度，其期望和姓氏人口大小无关，但人口越多，方差越小。

姓氏的平均精英程度，基本是一个正态分布（中心极限定理），中心位置（期望）都一样，但人口越多，分布越集中，人口越少，分布越分散，如图：

所以姓氏人口越少，越有可能出现特别精英或者特别废柴的极端情况。特别大的姓氏，其表现基本和整体人口是一样的。比如王李张三个姓氏占人口总数的 20%以上，那么他们不可能都是精英姓氏，否则这三个姓的精英人口占总精英人数的100%以上。

成为精英姓氏的概率与姓氏人口数的具体关系，可以用大偏差技术来处理。我写过一个相关的note，Mather King：大偏差技术是什么？

简言之，大偏差说的是，n个iid变量的均值，大于某个较大的值（比如此处的五倍精英比例）的概率，亦即『大偏差』出现的概率，会随着n增长以指数速度下降。

假设一个有1000人口的姓氏成为精英姓氏的概率是1%，那么一个有2000人口的姓氏成为精英姓氏的概率大概量级是1%*1%=0.01%。一个有10000人口的姓氏成为精英姓氏的概率大概量级是0.01^10=10^{-20}, 小得可以忽略。

这就非常好地解释了为什么姓氏越稀有，越有可能成为精英姓氏。

但反过来，姓氏越稀有，也越有可能成为废柴姓氏。

对于光棍，就是一人吃饱，全家不饿。但一人吃不饱，全家都饿。对于大家庭，一个人饱不饱就无关大局了。