NO.1162 高考成绩、基金收益有什么共同点?


你好,这里是罗胖精选。

今天继续推荐刘嘉老师的课程《概率论22讲》。

刘嘉老师讲,概率论解决问题的方式,就是把随机性上升为确定性,从而让我们对未来有一个相对准确的判断。

今天,我们就来看一些具体的例子。刘嘉老师说,很多我们生活中的现象,像什么身高、智商,还有高考成绩、基金收益,甚至包括电脑的开机时间、天体的运行轨迹,都可以从概率论的角度来把握。而这个把握的模型,就是正态分布。

那怎么用正态分布,来构建认识世界的模型呢?接下来,就让我们一起听听刘嘉老师是怎么说的。

你好,欢迎来到我的概率论课。我是刘嘉。

上一讲,我们从整体上理解了概率分布,知道了概率分布模型是对现实规律的抽象总结。从这一讲开始,我们就深入学习几个典型的概率分布模型。

概率分布模型有几十种,从哪一个讲起呢?

你去问任何一个概率老师,得到的答案肯定只有一个——正态分布。原因很简单,正态分布是概率分布中最重要的分布。在数学家眼里,它是远远高于其他分布的。

这一讲,我们就先了解一下正态分布的数学性质和应用;下一讲,再看看正态分布到底有多重要。

正态分布的发现

要讲正态分布,我们得从天文学史上的一桩公案说起。

1801年初,一个神秘的天体出现在天文学家的视野中,几周之后又神秘消失。它是什么?又去了哪儿?没人知道。正在所有人都束手无策之时,“数学王子”高斯站了出来,他用一支笔计算出了这个天体的运行轨道。果然,在高斯指定的位置,人们重新发现了它。这就是人类发现的第一颗矮行星——谷神星。

你可能好奇,高斯是怎么计算出这颗天体的运行轨道的呢?很简单,他在计算的过程中使用了正态分布。

没有正态分布,人类束手无策;有了正态分布,竟然能精准计算一颗遥远的天体的位置。你说正态分布厉害不厉害?

而且从此以后,正态分布就席卷一切,不仅推动了数学、统计学、物理学、工程学等众多领域的发展,而且还有很多其他的分布,比如说对数正态分布、T分布、F分布都是直接由正态分布推导出来的。

“正态分布”这个词,听上去挺复杂的,但它的英文表达就简单多了,叫normal distribution,直接翻译过来就是“正常的分布”“一般的分布”。咱们国家台湾的教科书通常叫它“常态分布”。其它分布都是特殊的,只有正态分布是一般的、正常的。从名字上,我们也能感受到它的重要性。

作为数学史上数一数二的人物,高斯的伟大发现不胜枚举。甚至有人说,在高斯所在的那个时代,几乎所有伟大的数学成就都是高斯最先发现的。所以,高斯并不觉得自己发现正态分布是多了不起的事情,他的墓志铭上,刻的也是他的正十七边形,而没有提正态分布的事。

但后人不这么认为,德国为了纪念高斯,就在10马克的钞票上印上了高斯的头像,而在头像旁边的,就是正态分布的钟形曲线。

正态分布的三个数学特性

有趣的是,正态分布不仅非常重要,而且还特别简单。

说起正态分布曲线,你肯定见到过——一条对称的倒钟形曲线,中间很高,两边下降,像个鼓起的小山包。

这条曲线究竟是什么意思呢?下面我带着你简单了解一下,以后你就能看懂它了。

在正态分布的曲线图里,横坐标代表随机变量的取值范围,越往右,随机变量的值就越大;纵坐标,则代表概率的大小,最底下的概率是0,越往上概率越大。这样,从曲线上随便找一点,确定它的横坐标、纵坐标,我们就知道了这个值出现的概率是多少。

因为这条曲线是左右对称的,所以中间的最高点,就代表平均值出现的概率最大,数据最多;而两边陡峭下降,就意味着越靠近平均值,数据越多;越远离平均值,数据就越少。

当然,我们不能停留在这种粗糙的描述上,要理解正态分布,必须了解它的三个数学性质。

性质一:均值就是期望。

也就是说,正态分布曲线中间最高点的横坐标,不仅代表随机变量的平均值,而且还等于它的数学期望。这是经过数学证明的,你不用太纠结。在概率论中,正态分布的均值和期望就是一个意思,是一件事儿的两种表达。

这就很有意思了。我们前面讲过,数学期望代表长期价值,而现在平均值又是数学期望。也就是说,在正态分布中,平均值就代表随机事件的价值。

为什么我们会用高考的平均成绩,衡量一所高中的教学质量?为什么我们会用平均收益率,衡量一家基金公司的好坏?原因很简单,高考成绩和基金公司的收益,是服从正态分布的。而在正态分布中,平均值就代表这个随机事件的价值。

但提醒你一下,在正态分布里,平均值才具有这样的意义。如果不是正态分布,均值可能就没啥意义了。比如说地震,谁也没听说过平均强度和平均损失这样的说法吧?

性质二:极端值很少。

还记得正态分布的图吗?越靠近平均值,这条曲线越高,出现的概率越大;越远离平均值,这条曲线就越低,出现的概率就越小。这就说明,正态分布的大多数数据都集中在平均值附近,极端值很少。

“极端值很少”这句话,有两层含义:一是极端值出现的概率很低,二是极端值对均值的影响很小。也因此,正态分布是非常稳定的。拿人的身高来说吧,它大体服从正态分布,所以即使姚明加入我们课程,我们的平均身高也不会有太大变化。

当然,如果不服从正态分布,均值往往就很不稳定。

性质三:标准差决定胖瘦。

如果留心你会发现,同样是正态分布图,有的曲线要矮胖一些,有的要高瘦一点,这是为什么呢?

其实就是因为标准差不同。前面讲过,标准差就是方差的平方根,也能用来描述随机变量的波动情况。在正态分布中,标准差越大,数据的波动越剧烈,钟形曲线就越矮胖;标准差越小,数据越集中,钟形曲线就越高瘦。

为什么刚才说正态分布简单?就是因为在正态分布中,平均值等于期望,决定这条曲线的最高点;方差决定胖瘦,决定曲线的弯曲度。简单两个数据,就确定了这条曲线的形状。你说简单不简单?

正态分布的现实应用

日常生活中,正态分布的应用随处可见。

当你打开电脑时,某产品会告诉你,“你的开机时间23秒,打败了全国97%的用户”。“23秒”你可能没概念,但“打败了全国97%的用户”一下子就让会你明白快还是慢。不过你有没有想过,这个97%是怎么来的?是要把全国每台电脑的开机时间都收集起来,做个排序吗?这太复杂了吧?

其实不是这样的。他们只是构建了一个正态分布的模型而已。

我们知道,大部分电脑的开机速度都差不多,只有小部分快一点或慢一点,可以认为它服从正态分布。而刚才说了,正态分布很简单,只要均值和标准差两个数据就能完全确定。所以,只要随机抽取一部分用户的开机数据,算出均值和标准差,就可以确定一条正态分布曲线。

而在正态分布中,一个标准差覆盖68.26%的数据,两个标准差覆盖95.44%的数据……都是一一对应、完全确定的。

有了这层关系,当你的电脑开机的时候,它只需要比较你的开机时间和均值的差距,就能知道你距离均值多少个标准差,也就知道你的排名了。

正态分布,为我们提供了一个估算个体在整体中位置的便捷方法。像智商、身高、考试成绩,只要服从正态分布,我们就都能这样快速得到答案。

一个正态分布可以分析,不同的正态分布曲线能比较吗?

也能的。

第一,只有均值不同,能比较好坏。

比如两条生产线制造的产品,标准差一致,怎么比较呢?当然是平均合格率越高,品控做得越好。前面说了,正态分布里均值等于期望,就代表长期价值。

第二,只有标准差不同,能比较波动。

最典型的就是男女智商了。两条曲线在均值上相似,但是男性的智商曲线要矮胖一些,女性的高瘦一点。换句话说,均值相同,标准差不同。这说明什么呢?

前面说过,标准差代表波动程度,代表极端数据出现的概率。所以这就是说,从整体上看,男女智商没有高低之分,男性并不比女性更聪明;但男性的智商波动更大——在智商超群的人中间,男性的数量要多于女性;当然,智商堪忧的人中间,男性也同样更多。

第三,标准差和均值都不同,能比较专业和业余。

比如个人的射击成绩,都是在平均成绩上下波动,基本服从正态分布。

如果我和射击冠军许海峰比赛,结果你能想象——我的成绩肯定变化极大,有时候蒙中10环,有时候脱靶,大多数可能都是3、4环;而许海峰肯定特别稳定,基本都是10环。均值上,他更高,成绩更好;标准差上,他更小,成绩更稳定。这就说明,许海峰比我专业得多。

其他人总是用“刻意练习”“精准”等来评价专业和业余,但在数学家看来,这些词都太模糊。真正精确的标准只有两个——均值和标准差。专业就是均值更高,标准差更小,业余恰恰相反。

思考题

为什么国家一公布居民收入数据,就有很多人说自己被平均了,甚至怀疑数据有问题呢?你能用这一讲的知识分析一下吗?

下节预告

前面我一直谨慎的说“正态分布是重要的分布”,但这一讲最后,我一定要说——正态分布是概率分布中的神。为什么这么说呢?下一讲讲中心极限定理的时候我来告诉你。

我是刘嘉,我们下一讲再见。

内容听完了,我是罗胖。

我们得到同学给刘嘉老师的《概率论》课程起了一个外号,叫做“生活中的概率论”。因为刘嘉老师会从概率论的视角,带你理解生活中各种各样的现象:从汽车保险怎么定价,到打麻将怎么胡牌,你都可以从概率论的角度,得出全新的解释。

你在得到App首页搜索“概率”两个字,就可以看到刘嘉老师的《概率论22讲》这门课程。刘嘉老师正在课程里,还有知识城邦,驻场答疑。推荐你现在就加入学习。

罗胖精选,明天见。