互联网爱好者创业的站长之家 – 南方站长网
您的位置:首页 >微商 >

经济学人书架|《统计探源》:请把统计摆到桌面上

时间:2021-09-26 21:48:14 | 来源:澎湃新闻

原标题:经济学人书架|《统计探源》:请把统计摆到桌面上 来源:澎湃新闻

中文版《统计探源:统计概念和方法的历史》,李金昌 等译,鲜祖德 主审,浙江工商大学出版社2014版

透过特别的方式学点统计学

统计学常常令人望而生畏。随着大数据时代的来临,统计学日趋重要。专业性决定了不多花点时间精力是不可能学好统计学的。学习统计学,首先得有足够的动力。兴趣是最好的老师。甭管多难,只要有兴趣,成功的大门就在开启。

不懂点统计学,现实中许多事你可能就不会明了。

统计方法的应用越来越多。我们越来越习惯人工智能技术主导生活,许多看上去很直观的技术,背后都是统计的力量。

变化的是时代,不变的是基础理论和方法;即使有创新,也还是在基础之上进行。统计学大有成为显学之势。

人类对过去充满好奇。统计概念和方法是怎么来的,这属于统计思想史、统计发展史、统计学史的范畴。

显然,不是所有人都有必要深入其中进行研究。更多人感兴趣的,只是其中的若干领域。

系统全面了解统计学只能通过标准教科书,依靠浏览微信公众号或零散的文章是做不到的。读书仍然是一条捷径。

如果只想了解统计学中的某些方面,那么阅读一些有趣的统计学史论著或许有所帮助。

斯蒂文·M.斯蒂格勒(Stephen M. Stigler)的《统计探源:统计概念和方法的历史》(

Statistics on the Table:The History of Statistical Concepts and Methods

)(下简称《统计探源》),很值得一读。

需要说明的是,中文版的书名和英文版不同,英文版书名直译是《摆在桌面上的统计学:统计概念和方法的历史》。中文版突出论著自身的统计思想史(统计学史)的属性。英文版主书名突出的是统计的作用,事情怎么样,请把统计摆在桌面上来谈。

英文版封面英文版封面

如果你对统计学史感兴趣,那么这是一本必读书,不用我推荐。如果你不是对统计学史感兴趣,那么你是不是有必要读这本书?

父母酗酒影响孩子吗?请把统计摆在桌面上

这是一本统计学专业书,同时是一本有趣的书。

专业书肯定有阅读门槛,但仍值得一读。如果你认为拦路虎是数学公式和各类图表,那么我要告诉你,拦路虎所占篇幅不大。

这是一本文集,好几篇文章甚至没有任何公式,而是纯粹的散文。即使有公式图表,你跳过去,相信也会有所收获。

全书一开始就讨论一个话题:

父母酗酒影响孩子吗?

看似简单的问题,竟然引出一桩“统计公案”。我们的直觉是,父母酗酒怎可能不影响孩子?

这样的问题不值得一问。可是就有统计学家不信邪,一定要在这个问题上下功夫,得出与众不同的结论来。这事闹得还不算小。

我们所熟知的英国剑桥大学的两代经济学家马歇尔(Alfred Marshall,1842-1924)、庇古(Arthur Cecil Pigou,1877-1959)、凯恩斯(John Maynard Keynes,1883-1946)等都卷入其中,他们的看法和一般人是一致的。

故事发生在一百多年前。事情的缘起是这样的:在高尔顿实验室的支持下,艾瑟尔·M.埃尔德顿(Ethel M. Elderton)在著名统计学家卡尔·皮尔逊(Karl Pearson,1857-1936)的帮助下,完成了一份报告——《父母酗酒对后代的体格和能力的影响》。

这份报告挑战流行的父母酗酒对儿童造成伤害的看法。尽管有些人再三声称,酗酒者的罪孽会在他们的子女身上得到报应,但他们没有找到证据。这份报告认为,父母酗酒不仅没有危害,而且父母酗酒的孩子比父母不饮酒的孩子视力更好。这简直逆天了!他们发现唯一的负面影响是,酗酒父母的婴儿死亡率略高于其他婴儿,多数是在母亲酗酒的情况下,婴儿死亡率较高。

这分报告本来预期只会招惹禁酒运动家和医学界,但经济学家的反应有点猛烈。

马歇尔写给《泰晤士报》的一封信,他反驳的是酗酒男性和不酗酒男性的工资之差只有0.6便士或1先令的论断,他担心读者会得出“酗酒不会大幅度降低经济效益”的深意。

马歇尔谈到样本问题。他认为,对酗酒者和非酗酒者两组样本的直接比较,由于两组样本经过筛选,结论体现的是数据的选择。他的论据有四点:第一,有些职业中的工头更愿意选择身体强壮的酗酒工人,而不愿意要不酗酒但身体虚弱的工人。第二,结论的基础(爱丁堡数据)可信度不足,只是代表一座城市较为贫困的区域。第三,研究报告给出的工资数据只表示人们全职工作时段的工资,而不是全年应有的实际收入。第四,有效的调查必须假定酗酒者在孩子出生之前就开始酗酒。

面对马歇尔的指责,皮尔逊的回应是:“请把统计数据——包括未被选择的那些数据——摆到桌面上来。”他们的争论基本上是各说各话。

后来创立现代宏观经济学的凯恩斯也登场了。凯恩斯还是强调样本问题。“和曼彻斯特数据一样,总的说来,对爱丁堡样本的研究中,作者比较的是酗酒者和低于正常水平的不良非酗酒者,那么自然而然,结论是两者实属半斤八两。”

在福利经济学和财政学研究上有杰出贡献的庇古也加入论战。他给出两条不同的思路。

第一条思路是:通过法律手段限制任何一代中的父辈酗酒,能够提高其子女一代的体质和智力水平?对于这一问题,即使不能提供“能”的答案,至少也能否定“不能”这一答案。

第二条思路是:姑且假定皮尔逊的结论适用于样本地区,也适用于全国,那么“这样的结论就能阻止我们颁布禁酒令吗?”庇古在此给出否定的答案,因为酗酒者“除了在酗酒行为之外,说不定在别的方面也与非酗酒者不同,比如他们原本有更旺盛的精力……强壮的人更容易放任自己纵情饮酒”。

皮尔逊没有回应。他认为庇古本质上和马歇尔一样。他还是坚持“请把统计数据摆到桌面上来”。

全书引言开篇就引用皮尔逊1910年写给《泰晤士报》的信中内容:“我熟知的情形是,实际数据经常遭遇这样的建议:或许其他数据——如果它们被采集到了——可提供另外一些有价值的东西以作为论据。每当此时,‘请把统计摆到桌面上来’就是我唯一的回答。”

统计学家用统计语言说话,相信统计而不是其他。

关于酗酒者是否影响孩子健康,这只是一个话题。关键的是统计如何支持观点。统计方法、统计样本的选择显然至关重要。对这个话题来说,结论是什么甚至也不再重要,重要的是统计真得有那么大的魔力吗?

一本包罗万象的统计学史文集

要在一篇短文中对全书所涉有趣的故事全面概述是做不到的,因为知识点太多故事太多。

全书除引言外,收集了22篇文章。

每篇文章都是一个主题,作者将22篇文章分成五部分,分别是:统计和社会科学、高尔顿的理念、17世纪的探索者、对发现的提问、对标准的提问。

统计和社会科学

部分,除了“皮尔逊和剑桥经济学家的争论”外,还有“‘平均人’168岁”(文章撰写时)、“统计学家杰文斯”、“杰文斯关于金-戴夫南特需求定律”以及“弗朗西斯·伊西德罗·埃奇沃思与统计学”4篇文章。

杰文斯(William Stanley Jevons,1835-1882)是现代经济学的创始人之一。他既是统计学家,又是经济学家,用统计方法研究指数和黄金价格,如1849年澳大利亚和加利福尼亚州金矿的发现对黄金价格的影响。

杰文斯还研究经济周期问题,试图证明太阳黑子与经济周期的关系。尽管这个证明不算成功,但从逻辑上看有一定道理,太阳黑子活动影响农业收成,并进而形成经济周期。

埃奇沃思从律师到经济学家的转变有点传奇色彩,他同时还是很有影响的统计学家。在统计学家看来,社会科学需要概率论,数理方法才能让社会科学成为真正的科学。当然,统计学应用的领域远远不止社会科学。

高尔顿的理念

部分有5篇文章,涉及指纹鉴定、19世纪的随机模拟、1933年的统计学史、均值回归、心理学中的统计概念。

指纹鉴定的基础是统计学,从19世纪80年代的法医学到如今的DNA鉴定,基础并没有什么改变。

“1933年的统计学史”一文为“数理统计学开始于1933年”进行辩护,所指的是数理统计学作为一门学科的诞生。

一般人可能难以想象的是,在那个年代,统计学家抱怨新统计学的数学化倾向。数学和统计学之间的纠葛到底是怎么发生的?数学的抽象性和统计理论偏应用又是如何协调的?这篇文章给出了答案。文中有句话耐人寻味:“回归谬误是非常微妙的,它哄骗受过数学教育的人如同欺骗不懂数学的人一样容易”。“均值回归”最经常说的是身高和智商。了解了这一点,也许就不会对某名牌大学教授抱怨子女智商不如自己感到莫名其妙了。高处不胜寒。“回归”太形象了!

17世纪的探索者

部分有3篇文章,分别是:“阿波罗数学”“概率论的黑暗时代”和“约翰·克雷格与历史事件的概率”。这里有数学模型之于医学的应用的努力和争议,有概率论在英国哲学和数学中鲜为人知(读了这本书后就不会鲜为人知)的早期应用,甚至有在无神论者看来极为荒诞的基督复临的预测。

对发现的提问

部分包括6篇文章,有自嘲的斯蒂格勒命名定律,有贝叶斯定理的发现者的考据,有最小平方法发明者的研究等等。科学史上为了尊重科学家的贡献,经常用“发现者”的名字来命名某个定理、法则、定律,但这往往是错的,就连概括这一定律的“斯蒂格勒定律”事实上也是错误的。斯蒂格勒真会开玩笑,故意命名“斯蒂格勒定律”,实际上按此定律,最早提出者肯定不是他自己。人类的悖论定律,比比皆是。

对标准的提问

部分包括3篇文章,分别是“统计与标准”“铸币检验试验”和“规范术语”。这几个标题可能不会让人有太多兴趣,但每一篇文章背后都是一系列故事。

就拿“铸币”那篇来说吧。在1851年之前,铸币厂不是英国政府机构的组成部分,而是通过与官方签订合约进行经营。铸币规定可允许的误差范围,在规定的范围内高于和低于标准值是允许的。含量取决于贵金属的类型及被检测的货币面额。检测活动圆满完成后,将举行庆祝晚宴。无法对铸币一一进行检验,只能向统计方法求助。众所周知,大科学家牛顿曾经当过铸币厂厂长,从哪个1699年到一直到1727年去世,自然也对铸币品质的保证作出贡献。他是怎么做的?文章给了详细的说明。

书中提到的一篇演讲,抱怨新统计学的数学化倾向书中提到的一篇演讲,抱怨新统计学的数学化倾向

从历史到现实:让统计学史帮助我们思考

《统计探源》追溯统计概念和方法的历史,不只是再现经典的争论,而且也重现大量经典发现的过程。这对于我们理解统计学是有帮助的。

统计学可以弥补直觉的缺陷,加大理解问题的深度。对于不少问题,仅仅定性分析是不够的,这更凸显定量分析的重要性。

仅仅定量分析也是不够的。在许多时候,定量分析也可能让人们陷入数据泥淖。定量分析是为支撑某种看法服务的,不要忘了来时的路。

统计方法从一开始就不是抽象的,概念后面往往是丰富的问题和思想,在自然科学领域的应用不用多说,在社会科学领域也是如此。

统计反直觉,或纠正直觉的偏见,在一定程度上改变了“人类一思索,上帝就发笑”。科学发现不一定只用于现实问题。耶稣什么时候再次光临也可以成为统计学的研究对象,当然结论不一定就能够被广泛接受。大科学家牛顿晚年沉迷神学,如何解释?

统计方法是社会科学的一种基本方法,但应用领域远不止经济学、心理学这类社会科学,天文学、医学等也在用,而且用的范围一点也不小。这样,《统计探源》不仅仅可供经济学人阅读,其他对统计学感兴趣的读者都可以翻一翻,或许会有不同一般的阅读体会。

我们经常说,太阳每天都是新的;我们也经常说,太阳底下无新事。

我们经常说,思想常新;我们也经常说,思想在不断时期以不同方式呈现,哪里有那么多的新思想。

这大概是学科史研究最有魅力之处。科学发现经常只是在捅破一层薄薄的窗户纸。

科学发现有时只是游戏的结果。最初并不知道用在什么地方,满足的是求知欲。统计方法本身一直在优化,人们总是相信存在规律,否则就没有必要进行探索。

数学家、统计学家、经济学家以及其他各个应用统计方法的人士和读者,事实上,都是在探索统计之美,感受统计之美。

顺带说下,斯蒂文·M.斯蒂格勒是1982年诺贝尔经济学家得主乔治·J.斯蒂格勒(George J. Stigler, 1911-1991)之子,父子同是芝加哥大学教授,父亲是经济系教授,儿子是统计系教授。老斯蒂格勒除了在信息经济学和政府规制上有重要贡献外,在经济学史领域也有深入研究,著有《经济学家和说教者》。

家学渊源。小斯蒂格勒早就对历史感兴趣。后来,他惊奇地发现自己的博士论文相关的一些原理早就见诸40年前的《美国数学学报》,但被遗忘了。他后来又发现不少类似例子。他注意到读最新文献,而不是回溯更远时间的趋势。他对统计学史的研究是在纠偏。“我不是说所有的事以前都做了,而是说一切相关的事都已经做了,理解事情如何变幻是我们所面对的挑战。”

(参见The statistician in the library: Stephen Stigler’s four decades crossing disciplinary lines,

https://news.uchicago.edu/story/statistician-library-stephen-stiglers-four-decades-crossing-disciplinary-lines)

小斯蒂格勒还有一部与《统计探源》一样风格的文集《统计学史:1900年之前不确定性的度量》(

The History of Statistics: The Measurement of Uncertainty before 1900)。他的《统计学七支柱》(The Seven Pillars of Statistical Wisdom)颇有影响,

介绍了统计学的七个基本思想:聚合、信息、似然、相互比较、回归、设计、残差。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。