NO.1331 统计是数学题还是语文题?


你好,这里是罗胖精选。

今天继续向你推荐《万维钢·精英日课》第四季。

万老师最近在解读一本书,蒂姆·哈福德的新书《让世界讲得通》。熟悉的朋友可能知道,蒂姆·哈福德是一位经济学家,那套著名的畅销书《卧底经济学》就是他写的,他的另外两本著作《塑造世界经济的50项伟大发明》和《混乱》我们也解读过。

他的这本书新书同样有启发,讲的是怎样通过数字,通过统计学思维,来理解现代世界。那这本书中有哪些有价值的思想呢?

接下来,让我们一起听一听万老师的解读。

统计学在技术上属于数学,但在实际应用中,我感觉它更偏向于政治、经济学科,统计问题更像是语文题。

你说一家公司的财务报表好不好看,难道是会计决定的吗?像记账这样的常规操作早就标准化了。只要你把数据搜集好,该用什么公式怎么计算你根本不用管,统计软件都是现成的。决定统计结果的不是计算方法,也不是操作软件的统计员小张,而是单位的领导。小张作为一个工具人的作用仅仅是他会“数数” —— 领导虽然不会数数,但是知道该数哪些数。

我们继续讲蒂姆·哈福德的《让世界讲得通》。有一天你打开英国的《卫报》,看见上面一个大标题写着「17岁-19岁的英国女孩,有1/5都有过自残或自杀行为」。你一看太可怕了,还是上网吧,结果你打开手机又看到一个新闻标题「伦敦的谋杀率第一次超过了纽约」。这两个标题都是真实的,而且媒体没有说谎。

遇到这种标题,我们应该如何反应,才能有点领导气质呢?

你要考察这些统计数据的输入和输出。统计学的第三个法则是输入看定义,第四个法则是输出看情境。

1.输入看定义

那些统计数字,到底统计的是什么东西?这是最基本的问题,对吧?但这也是最容易被人忽略、最容易带来误解的问题。统计对象常常没有清晰的定义。树上七个猴地上一个猴,其中怀孕一个猴,而且她下一秒就要生了,你说一共几个猴?该数哪个不该数哪个这条线,你并不好划。

哈福德做节目遇到了一组很奇怪的数字对比。近些年来,英国伦敦以外地区的出生婴儿死亡率,明显比伦敦市要高。这引起了人们的警觉,是不是伦敦以外地区的医疗水平不行了呢?结果不是。

这个事儿的关键在于,到底什么叫“婴儿死亡”。孩子从怀孕到出生大概需要 40 周,如果是 37 周之前出生就是早产,但早产婴儿也是婴儿。伦敦市的标准是 24 周就算是一个生命了,只要是 24 周之后死亡,就算作婴儿死亡;不到 24 周的死亡才叫做流产。

那你说这个 24 周的规定有啥道理呢?难道 23 周的胎儿就不是生命吗?他其实已经长成型会动了啊。英国在伦敦以外的医院,就把“婴儿死亡”的定义,划线到了 22 周。正是因为这个定义的差别,导致了两个地区的婴儿死亡率不同。

这个差距挺明显的。2010 年,美国的婴儿死亡率是千分之 6.1,芬兰是 2.3,人们因此纷纷指责美国,但是这里面也有定义不同的因素。美国医院普遍对婴儿的定义是 22 周。如果我们只看 24 周以后的婴儿死亡率,那么美国其实是 4.2,芬兰是 2.1,仍然有差距,但是差距没有那么大。

再比如开头那个标题,「17岁-19岁的英国女孩,有1/5都有过自残或自杀行为」—— 我们首先得问什么叫“自残(self harm)或自杀”。仔细看那个研究,它统计的并不是那些女孩在过去一年之中有没有像割腕之类的自杀行为 —— 而是从小长到大这么多年来,只要有过任何自我伤害的行为都算:像什么扇自己耳光、烧伤自己的皮肤,滥用酒精、暴饮暴食、厌食症、甚至拔掉头发都算自残,只要那些女孩认为是自残就是自残。那你说五分之一算高吗?事实上如果你只统计自杀成功的比率,英国15-19 岁的女孩中,是每年、每十万人中才有 3.5 个人。

统计定义的这种模糊性非常容易被政客所利用。政客说“我们要加大力度……”,到底什么叫加大力度?是明年给增加拨款吗?比今年多多少?考虑通货膨胀吗?这些都不好说。

2017 年,一个英国政客提议,要在未来五年“冻结非技术移民”。这听着挺有道理,接收移民应该接收稀缺的高级人才,低端的工作机会应该留给本国人,挺好吧?可是什么叫“非技术移民”呢?你细看,政客给的定义是按照职业的年收入划线:如果这个职业的年薪低于 35,000 英镑就算非技术。

可是这合理吗?你要知道很多护士、小学老师、技术员、律师助理、包括一些化学家的收入都低于 35,000 英镑,这些可恰恰是英国需要的、真正的人才。结果 2020 年,英国真的宣布了移民限制,最终把线划在了 25,600 英镑。

数什么,决定了数数的结果。你说现在贫富差距变大,那到底什么叫富人,什么叫穷人?我们应该算总财产呢,还是算年收入?这两个统计结果的差别是巨大的。

再比如说,现在大家普遍认为新冠是比流感严重得多的病毒,但是也有些人认为新冠就是一场大流感,因为他们认为新冠的实际死亡率并不比流感高很多。这就涉及到到底怎么统计新冠肺炎的死亡率。死亡率 = 死亡人数/感染人数,可是什么叫“感染者”?无症状感染算不算感染?没去医院确诊、自己在家自愈的那些人要不要统计上?还有,当初统计流感的死亡率的时候用的是什么标准,这两个标准一样吗?这些已经不是医学问题了。

2.输出看情境

即便定义清楚,一个数字到底是大是小,我们还得看具体的情境才知道。那个新闻为什么说「伦敦的谋杀率第一次超过了纽约」呢?其实就一组数字:2018 年 2 月,纽约有 14 起谋杀案,而伦敦有 15 起,这是历史上第一次伦敦的谋杀案多于纽约。

那这对伦敦来说是多大的坏事呢?没有具体情境的数字就如同没有测量单位一样。首先你得知道伦敦和纽约各自的人口数量,但是因为两个城市的人口差不多,直接比较数字是可以的。

然后你得考虑时间情境。是不是伦敦治安变差了呢?并不是。我们对比 1990 年全年,伦敦有 184 起谋杀案,纽约有 2262 起 —— 所以不是伦敦变差了,而是纽约变好了。更合理的说法是伦敦的治安一直都很好。

数字的情境包括时间尺度、空间尺度、总人口、GDP、财富总量等等。对这些常用的数字有个基本感觉,你就容易评估新闻里那些数字了。

这几天我刚看到一个非常有意思的例子。2020 年 12 月 31 日,纽约时报发表了一篇讲中国扶贫的文章,叫做《工作、房子和牛:中国代价高昂的“运动式脱贫” 》[1]。文章中列举了中国近年来扶贫取得的成就,但是记者表达了他的担心,他认为中国这种扶贫是不可持续的。

有意思的不是这篇文章本身,而是纽约时报读者的评论。我按点赞顺序排列看了大概几十条评论,所有这些评论 —— 注意不是“几乎”所有,是所有 —— 都支持中国、反对那个记者。从名字和语气可以看出来他们大多都是美国人,所以你看美国也有愤青。

而这些网友很善于看数字的情境。有好几个评论提到,中国五年间,在扶贫上总共花费了 7000 亿美元 —— 相当于中国GDP的1% —— 而这些钱帮助了 5000 万人脱贫,相当于平均每人每年 600 美元,如果这叫不可持续,那请看:美国政府给富人减税一下子就减掉了 2 万亿美元,美国政府每年给 200 万农民发农业补贴要花去 200 亿美元,相当于每人每年 1 万美元,难道这才叫可持续吗?对比之下中国纳税人花的钱好像更值。

其实现在美国网友对中国的支持率远高于美国媒体,因为他们要拿中国说事儿,去反对美国政府。包括写那篇文章的记者,自己在推特上也说中国扶贫搞得好。那么问题来了,纽约时报为什么非得用批评语气谈论中国呢?为什么美国主流媒体总是报道中国的负面新闻呢?

以我之见,这并不是说西方媒体有什么同盟式的定要系统性地反华。事实上美国主流媒体上报道美国的负面消息更多。特别特朗普当政这四年,主流媒体就没好话,批美国比批中国狠得多。而这并不完全是媒体人有什么偏见 —— 这其实更是媒体的性质所决定的。

3.为什么新闻没有好消息?

凡是为市场服务的新闻,报道的大多都是坏消息。坏消息会让人感觉更重要,批评的语调会让纽约时报的读者感到更有深度。不过人并不是悲观动物,人是乐观动物。

哈福德说,如果你在伦敦街头随便拦住一个市民,问他对自己未来的经济状况是乐观还是悲观,他十有八九回答乐观。但如果你问他对英国整体的状况是乐观还是悲观,他很可能是悲观的。这显然是一个偏见,如果大多数英国人都认为自己的状况很乐观,为什么英国整体会很悲观呢?这其实是媒体造成的。

哈福德认为,媒体爱报道坏消息,并不是因为人们更喜欢坏消息 —— 而是因为人们更容易注意到坏消息,因为只有坏消息具有突发性和意外性。

好消息往往不值得报道。这是因为事情变好都是慢慢变好的。你说中国昨天减少了几万贫困人口,今天又减少了几万,这是新闻吗?读者想看的是意外事件。而意外事件往往是坏事件。

比如你设想一下,如果下一个小时之内,在你身上要发生一件值得上新闻的大好事,它会是什么呢?其实你现在已经挺好了,如果有什么疾病的话一小时之内也恐怕治不好。除了买彩票中大奖你很难想象有什么大好事能在一小时之内发生。但如果让你想象未来一小时内可能在你身上发生的坏事,那想象空间就大了,比如突然地震、天降陨石之类,简直什么事都有可能发生。坏消息和好消息是不对称的。

所以我们看新闻里的统计数字一定要考虑时间情境,不要过分被短期波动影响。当你把视角放大、频率放慢,你看到的东西完全不同。

有人建议玩这么一个游戏:我们设想 2018 年出了这么一期报纸,它不是日报、周报也不是月报和年报,而是每 25 年才出一期,你说它应该写些什么呢?

它不会写那些鸡毛蒜皮,它写的大概是中国崛起、互联网普及、智能手机出现这三个主题。

那如果是 50 年出一期,它的首页标题大概是「没有发生核战争!」这是因为它得跟 1968 年去对比,而当时正处于冷战。

而如果是 100 年、200 年才出一期,那么人们更关心的就是科技进步、健康水平大大提高,贫困人数大大减少这些事情 —— 这些全都是好消息。

如果你喜欢好消息,你应该考虑更大的时间尺度。

输入看定义,输出看情境,视角和视野决定内容,这些难道不是语文题吗?