《统计数据会说谎》是一本由达莱尔•哈夫著作,中信出版集团股份有限公司出版的平装图书,本书定价:CNY 39.00,页数:176,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。
《统计数据会说谎》读后感(一):看完后的一些感受
因该书发表的时间距今已有近半个世纪,所以里面的统计学的骗术对现在的人们来说已是小儿科了,没有那种书名让人以为可以得到的恍然大悟的感觉。与其说各种伎俩能屡试不爽关键是来源于人们对统计学的无知,更多的是钻了人们懒于思考、容易被导向煽动的空子。在任何一个领域想不被骗除了增强对相关知识的了解,最重要的是需要加强自己的独立思考意识:对任何知识和讯息不要不加思考的接受—当然首先需要强大的逻辑大脑和冷静的心灵!
《统计数据会说谎》读后感(二):有选择的真实
今年已过了大半,年底大概又要被涨工资了。
————————————————————
这书出来50多年了,里面提到的一些统计上手段在数学课上其实老师有提到过。
数学课本上含蓄的称之为——统计误差。
一、哪来的数据
有些事情可能从一开始就注定会得出一个错误的结论,比如选择了一个错误的样本。然后你一切的努力,都是南辕北辙。
老师要求的是样本量要大、覆盖面要广、要有代表性。
老板大概不是这么要求的。
顺便提一句,不知道全国新生儿性别比是怎么算的,如果新生儿性别比是将各地基层系统里的数据定时截取再算出来的话,大概也是靠不住的。因为工作的关系,接触了一点这方面,小地方一年的数据,使点小手段能相差3、5个点,而且大概率不被发现。
至于为什么要这么做,因为有个东西叫考核指标。
二、给你看什么数据
收集到的东西,你能看到的也只是被加工处理过的。
倒不是说造假,毕竟缺乏监督的造假太低级了。
中位数、众数、平均数都是合理合法,再挑个合眼的大概也无可厚非。
转换成柱形图、扇形图、折线图、单位怎么选、起点怎么选、同比还是环比、、、
大概心理学的要求比数学还要高一点。
三、得出什么样的结论
兜兜转转一大圈,得出个老板不高兴的结论,估计你很快也要不高兴了。
其实经过了有选择的样本和数据处理后,基本就能得到满意的结论了。不过书里面提到的“看似相关的结论”总是莫名让我想到那个关于蝴蝶效应的描述“ 一只南美洲亚马孙河边热带雨林中的蝴蝶,偶尔扇几下翅膀,就有可能在两周后引起美国德克萨斯的一场龙卷风 ”。。。。
毕竟事情的结果收到很多因素影响,带着预定的目的去进行统计,自然会将看似相关的数据强加到佐证结论上。
知道骗子的手段,才能尽量降低被骗的概率吧。不过这本书50多年了,这些手段还在继续用着,大概就是所谓的防不胜防了吧。
《统计数据会说谎》读后感(三):揭穿统计数据的简单利器(附思维导图)
生活中充斥大量数据。我们迷恋数据,因为它“直观、有说服力”。 现实真的如此吗? 我越发觉得,“统计数据会说谎”。 比如,某护肤品据称有极佳的美白嫩肤功效,理由是试验xx周,76.3%的使用者声称有皮肤变白了,变嫩了。 这是一个较容易辨别的误导性结论,大家可以说“声称”不一定是事实。 那如果去掉“声称”,加上前后对比图呢? 我相信,大部分人会增加信任度。 而《统计数据会说谎》会用“脚”投票反对。 作者会提出多个问题,如:使用者一共有几个?与其他的产品对比效果如何?有没有其他因素影响结果?这个结果是什么时候调查的? 如果只有15个人,这个百分数明显说服力不强。如果这个功效并不是同类产品领先的,单单功效因因素不足以支持消费者购买。如果试用者还用了其他护肤品,那么结论的说服力不强。如果是在试用者洗完脸后调查的,说服力也不强,因为洗脸后皮肤会显得好。 《统计数据会说谎》就是这样一本揭穿统计数据谎言的书。 这些谎言一部分是人为,一部分是不经意。但无论哪种情况,都大大影响了我们的判断能力,最终可能会导致我们作出错误的决策。 这本书也不厚,而且插图很可爱。如果从头读到尾,也就3、4个小时。 相信它会是你揭穿统计数据说谎的简单利器! 最后,感谢@任琦琦 77赠送的《统计数据会说谎》,让我发现了这么一本有用的书。
微博@啊中旬 知乎@啊中旬
转载请说明
(思维导图中,反驳版可以当作简单模板,用于识别数据)
《统计数据会说谎》读后感(四):小心!有陷阱
曾经的英国首相迪斯雷利有一句名言:“世界上有三种谎言:谎言、弥天大谎和统计数据。”美国统计专家达莱尔则在经典之作《统计数据会说谎》一书中,诠释了这句话的内涵。虽然此书于上世纪五十年代写就,但今天读来全无过时之感。古往今来,我们一直在被数据哄骗,又如法炮制数据相互伤害,唯一不同的是,“撒谎”的媒介从报刊杂志走向了公众号。
达莱尔用幽默的例证向我们证明:我们以为童叟无欺、公正的数据,其实极有可能被“统计操纵”,成为某种精准的假象,并且,那种小数点后的数字尾巴、百分数、累加等都是再通俗不过的伎俩罢了。举个书中的小例子,作者自嘲:“这本书凝聚了长达187年的出版经验”,听上去无比厉害,究其本质,其实是作者、编辑、插图作者、印刷工、装订工年龄相加所得。只呈现具有迷惑性的数据统计结果,却英雄不问出处,不讲数据来源,最终把读者搅得一惊一乍。
《统计数据会说谎》一书中,大致归总了如下八种数据骗子的行径:
第一,“随机”抽取小样本。
第二,平均数、中位数、众数,哪个顺眼用哪个。
第三,用文字游戏掩盖小规模样本。
第四,概率误差。
第五,改变坐标轴,数据图看起来大不同。
第六,采取图像几何级增大,障眼法再升级。
第七,“相关”数据其实不相干。
第八,不合时宜的逻辑归因,这是一种相对复杂的高级骗法,需要想象力加大忽悠。除了书中所举的例子,还有一个经典的社会学例证可以作为典型:根据统计数据,在斑马线上发生的人车相撞事件远多于道路其他地点,所以,走斑马线更容易发生车祸。这一荒谬的结论却有统计数据撑腰,其实只是简单玩了概率与归因谬误的小伎俩。真实的情况是:走斑马线的行人总数远远大于乱穿马路的行人,发生事故的绝对值虽然略大,但概率的确远低。
对于不那么容易用常识识破的数据陷阱,应当如何防范,书中亦比较良心地给出了建议,面对数据,多问问如下几个问题:
第一, 数据的背后是谁在说,数据发布机构是否可靠?
第二, 他为什么知道这个数据,想想样本,想想数据的取得是不是靠谱?
第三, 统计还漏了什么?
第四, 有没有偷换概念,数据和结论是不是真的有关?
第五, 合理性,有常识用常识,没常识还可以问问知乎。
当然,即使懂得很多道理,也未必就能成就火眼金睛。数据的陷阱,理论是工具,实践才是王道,终究还是被骗几次才能慢慢参悟罢。
《统计数据会说谎》读后感(五):远离数据陷阱,了解真实的世界
“大数据”是个热词。通过网络搜索“大数据”,我们会发现大数据可以实现精准推送,治愈癌症,甚至可以预测未来。大数据似乎无所不能,还与AI黑科技息息相关,但一些关于大数据的推送提出了另一种看法——大数据可能并不那么万能,或许还会“说谎”。而我们常常看到的那些根据统计学基本原理计算得出的统计数据,也有可能会“说谎”,存在着数据陷阱。
早在上个世纪50年代,美国统计专家达莱尔·哈夫就提出,人们所看到的未必是真实的情况,这些数据要么被过于夸大,要么被隐瞒。因此,只有识破并远离数据陷阱,才有可能从统计数据中了解真实的世界,避免被华而不实的数据“欺骗”。
在《统计数据会说谎》这本书中,达莱尔·哈夫列举了很多与人们生活有关的统计数据——除了虚假的广告数据,我们也可能被智力测验的结果所忽悠,并通过这些统计数据,讲述了统计学的基本原理,指出隐藏在统计数据中的“陷阱”。 这些数据中的“陷阱”,可能是带有偏差的样本,可能是经过精挑细选的平均数或者一条趋势线,也可能是视觉效果惊人的图表和形象图,就连地图也可能会“骗人”,简直是防不胜防。
那么,如何才能远离这些数据陷阱呢?达莱尔·哈夫建议我们提出5个问题:
第一,是谁这么说?
提出并思考这个问题可以帮助我们找到偏差,留心文中的描述;
第二,他怎么知道?
第三,漏掉了什么?
除了描述,我们更需要留心的是数据本身。统计数据中的均值和中位数有着本质上的区别,是否给出原始数据也很重要;
第四,有人偷换了概念吗?
就算给出了原始数据,最终的结论也有可能被偷换概念,统计数据的“陷阱”防不胜防,多思考总是没错的;
第五,这是否合乎情理?
这个问题可以帮助我们看清统计数据是否建立在未经假设的基础上,从而避免被外推法的荒谬所误导。
阿蒂莫斯·沃德说,让我们陷入困境的并非我们不知道的东西,而是我们知道但并不正确的东西。达莱尔·哈夫总结的远离数据陷阱的方法或许不能帮助我们避免陷入困境,但通过这些方法,我们可以思考统计数据中可能会误导我们的“陷阱”,从数据中,了解一个真实的世界。
《统计数据会说谎》读后感(六):【笔记】如何找到数据统计的坑
作者整本书其实就是想教我们如何正确看待统计数据。书的最后告诉我们通过问5个简单问题即可以找(he)到(li)数(fan)据(bo)统(tong)计(ji)的(shu)坑(ju),总结如下:
1 是谁这么说(数据及衡量数据的标准、方法是否有问题)
1)选择的数据是否有倾向性,比如选择对自己有利的数据
2)衡量的标准是否偏颇,比如对比前先用某一年作为基期,而后又选择对自己更有利的一年为基期;
3)使用不恰当的测算方式,比如选择一个对自己有利的平均数
2 他怎么知道(样本是否有问题)
1)样本是否有偏差
2)样本规模是否足够庞大,以确保结论真实可信(尤其是对待相关性)
3 漏掉了什么(漏掉了什么必要信息)
1)可信测算方式。一个相关若缺乏可信测算方式(如概率误差、标准误差)检验,则没必要当真
2)未加说明的平均数。未说明是平均数是哪一个:算数平均数、中位数、众数。
3)对比。许多数据因缺乏对比而变得无意义
4)原始数据。材料只给出百分数,没有原始数据,通常带有欺骗性
5)导致变化发生的因素。这种遗漏往往暗示其他因素才是导致变化发生的原因
4 有人偷换了概念吗(原始数据和最终结论有没有什么地方被偷换概念)
1)将一件事说成是另一件事。比如调查数据来自用户口述,这就这是他们说的,而非实际真实统计
2)定义的概念发生变化。比如普查的农村数量增加,实际上是统计的农场概念变化导致的
3)将相关关系说成因果关系。比如工厂电力和工人每小时工资不断攀升,没有因果关系
4)“第一”的问题。不特别说明涉及的领域,每人都可以说自己是业界第一
5 这是否合乎情理(是否以未经证实的假设为基础)
1)是否以一些未经证实的公式来作为计算方法
2)是否以一些未经证实的事实作为基础
3)一些看似精确的数据也可能与常识相悖
4)慎重看待预测趋势。不加限制的外推法很荒谬,截至目前趋势或许是事实,但未来趋势不过是预测者猜测,所有事情并不会一成不变
《统计数据会说谎》读后感(七):别以为看到数据,你就了解了真相
看到数据,人们往往会觉得自己接近了真相。殊不知,往往却在一条相反的路上渐行渐远。阅读这本书,帮你找回探寻真相的方向。别以为看到数据,你就了解了真相,事实上,你可能什么都不懂!
这是一本看起来觉得很深奥,读着像本笑话一样的书。标题让你以为是一本不乏晦涩难懂的统计专业词汇满天飞的深奥书籍,实则不然。我个人感觉写得比较有趣,语言和整体风格上都比较轻松,基本是以吐槽儿的形态写完的。书中举出了很多身边对统计数据的使用案例,并且解析了那些数据的使用中,“坑”都可能在哪儿,如何避免。
诸如“耶鲁大学毕业生平均年收入”、“1936年《文学摘要》对当年总统大选预测失败”、“某工作宣称的高平均收入”、“使用某品牌牙膏后蛀牙减少了23%”、“《现在就能知道你的孩子会长多高》”、“27%的名医抽烟时选择某某品牌香烟,其比例远高于其他品牌”……书中的案例不胜枚举,读书的时候自然而然的能让你由这些案例联想到很多身边熟悉的场景,细想之下发现很多时候我们竟是这样的容易上当受骗。从数据获取的本身,到数据处理、数据本身的展示技巧与可视化转换等方面,作者全面呈现了我们如何被统计这门学问玩弄于鼓掌之间。
在最后一章“如何反驳统计数据”中,作者揭露到了5个有用的问题让你有效揭穿骗局、识别出真实可用的数据。
“是谁这么说?”、“他怎么知道?”、“漏掉了什么?”、“有人偷换了概念吗?”、“这是否合乎情理?”——这5个问题不仅串联起了全书的精髓,也具有很高的实战价值。当然不免让你发现身边几乎没有什么100%可信的,尤其是辅以了一些看上去很像那么回事儿的数据的时候,请拉响警报!读过这本书觉得轻松搞笑之余,也让自己反思很多时候我们是如何用有效的数据展示有用观点的,比如在辩论赛中,短暂的时间里很多人(诸如一些好像很有名气的辩手或评委),所谓对“数据”的论证或信服,真的具有实际的论证意义吗?所谓“相抗数据”描述的真的是一回事儿吗?或许看似激烈的“数据交锋”背后,任何一个数据本身其实都与他们当时所要论证的观点大相径庭。作为听众,当被场上某一方口中令人瞠目结舌的数据“唬住”之时,是不是也应该多问问自己事实的全貌是怎样的?而一些看似愚蠢的反驳——诸如问问谁做的调查?调查的主体是否权威?执行过程是否规范?样本选择是否广泛且能够代表总体?……这些问题从获取真相上可能是具有很重要意义的,但如何在辩论赛这样短时间内展现出对方数据确实是有问题的并让人信服,确是一个值得思考的问题。
很多时候人们会有这样的潜意识:觉得有数据总比空谈要强,有数据就实现了从感性到理性的飞跃,而该书告诉我们,统计操纵的往往就是人们的“非理性”,让你以为自己很聪明的同时做出愚蠢的判断乃至选择。这本书为我们思想上敲响了警钟——别以为数据展现的就是事实全貌,别以为看到了数据你就获得了全世界,其实往往只是冰山一角!
在任何一门看似很懂的学问面前,还是要常怀谦卑与敬畏之心!
《统计数据会说谎》读后感(八):我们对一个骗子深信不疑
看这本书的过程中,随时会想起《寻路中国》里的一段描述:
“中国官员对于数字的使用,自有他们的一种套路——极其漫不经心之间,会背出令人咂舌的各种数字来。”不仅仅是官方,即使是我们自己,在生活中也表现出了对统计数据的毫不迟疑的信任,甚至把一个个数据当作了荣耀的勋章,骄傲不已。却不知“世界上有三种谎言:谎言、弥天大谎和统计数据。”我们身陷骗局的漩涡中却不能自拔。
以平均工资为例,根据2017年浙江省全社会单位就业人员年平均工资统计公报,浙江省全社会单位就业人员年平均工资为60665元。看到这个数据,很多人都会大呼自己扯了大家的后腿,并为自己的收入愤愤不平,但这个“60665”的数据,却很值得我们考虑一番。
一、数据的得出的样本
目前来说,这个数据的得出以统计一套表的数据为基准,包括私营单位就业人员和非私营单位就业人员。但值得注意的是,统计一套表的原始数据由各企业事业单位自行上报,能否保证所报的数据符合客观实际?企业有没有为了减免税收而错报的可能?工人工资收入是正式员工的收入,还是包括了临时聘用人员的收入?此外,浙江作为私营企业的集聚地,大老板们的收入是不是也包括在内?
二、平均数的陷阱
就业人员年平均工资,这个平均应该是算术平均(以一套表中的报告期实际支付的全部职工工资总额/报告期全部职工平均人数),而算术平均数却是几个平均数里最不能反映实际情况的一个。假定一个企业有9名员工和1名管理者,9名员工平均工资1000元而管理者597650元,那么他们所得出的平均工资依旧是60665元,但事实上这却表明高的平均工资却是一个假数据,90%的人远远低于这个数据,而这种情况在老板遍地的浙江,却完全有存在的可能性。一个算术平均,完全无法说明是因为贫富差距的持续扩大导致工资的上涨,还是共同富裕所带来的效果。
三、显著性水平和方差
只有算术平均,而没有显著性水平和方差的统计结果,完全无法表明事实的真实情况。因为我们完全不知道什么的工资水平会落在95%的置信区间内。而以此来断定浙江的居民收入都很高?那你完全可能碰到一个贫困至极的村子。
四、标准误差
虽然浙江是民营企业强省,但也不代表所有的人都在企业上班;即使假定所有人都在企业,也不能保证这次的统计已经完全包含在内。那么这次统计的误差是多少?多大的范围下可以使用这个结论?
五、非相关性
很多情况下,我们公布平均工资,是为了表明人民的收入增加了,生活更好了。但其实高工资并不等于好生活。在工资增加的同时,物价增加了多少,通货膨胀了多少。浙江人均工资所增加的部分,有多少是因为高房价所带来的,而这在房价泡沫破裂的时候都会烟消云散。
“统计学不仅是一门科学,也是一门艺术。在允许的范围内,你可以进行大量的统计操纵,甚至扭曲事实。”所以,在看到一个统计数据的同时,我们应该认真地思考下:这个数据是谁这么说;他得出的这个数据怎么知道;公布的内容里漏掉了什么;从调查到公布的过程中有人偷换了概念吗;这是否合乎情理。我们不该再对这个骗子深信不疑了。
《统计数据会说谎》读后感(九):一点笔记
第一章 带有偏差的样本
在处理各类问题时,抽样调查是进行统计的最常见方式之一。但能达到“纯随机抽样”(即在一个总体中,每个人或每件事被抽样的概率是相等的)的时候少之又少。实际操作中,样本往往具有偏向性,例如在某杂志中对读者进行总统选举前的民意调查,但该杂志的读者本就是生活宽裕、受过良好教育、消息灵通、警惕性高、着装雅致、行为保守、爱好较为固定的群体。
第二章 精挑细选的平均数
平均数有三种——均值、中位数和众数。各类报道往往以“平均数”一言蔽之,不告诉读者具体是哪一种。比如一个街区居住的大多数是工薪阶层,但有三户是在这里度周末的百万富翁,因此该街区年收入的均值为15000美元,中位数为3500美元,众数为5000美元。当中介推销房子时会使用均值作为卖点,而当纳税人委员会请求降低税率时则会用中位数。平均数的挑选使用都是服务于特定目的的。
Fun fact: 与人体特定相关的数据(如身高),三种不同平均数的取值会非常接近。均值、中位数、众数几乎落在同一点上。
第三章 没有透露的小小数据
只有试验的样本数目足够庞大时,平均数定律才会是一个有用的描述或猜测。比如某牙膏品牌广告:使用该牙膏后蛀牙减少了23%!然而参加测试的用户仅有12人,机缘巧合之下他们迟早都能得出一个值得炫耀的“重大成果”。(居然还有这种操作,我也是服了)
搞不清“正常的”和“理想的”会让事情变糟。比如父母在报纸看到“小孩在几个月时应当学会坐直”,就会马上对比自己的孩子,如果孩子没有实现,他们就会认为自己的孩子“智力迟缓”。而这些“正常”和平均数若是都能表上一个范围,那么父母看到孩子达到了正常范围,便不会再为细微且没有意义的差异烦恼。
没被透露的小小数据之所以带有欺骗性,是因为人人常常意识不到它的缺失。有时候一个统计图的纵轴稍微变更一些(或者干脆不标注),整个趋势线的斜率便会疯狂飙升,给人一种增长迅速的印象。
第四章 无事瞎忙
样本代表整体数据的精确度可以用数字来表示:概率误差和标准误差。比如智商测验的“正常”并不绝对是100,而应该是类似90-110的区间。你必须时刻谨记“±”这个符号,即使它没有明确被标出。
第五章 惊人的图形
折线图纵轴的设定很能欺骗人。因为眼睛无须去“理解”切实的数据变化,所以某些数据上细微的上升在视觉上就变成了大幅增长。
第六章 一维图形
表达30美元周薪和60美元周薪的差距:画一个钱袋表示30美元,画一个两倍高的钱袋表示60美元。这其中内有玄机:第二个钱袋不仅高度是第一个钱袋的2倍,连宽度也是2倍,这样一来,第二个钱袋所占的面积就不是第一个的2倍,而是4倍。数据仍旧是2:1,但大多数情况下,视觉效果可是起了决定性的作用,也就是4:1。
第七章 看似相关的数据
如果你无法证明自己想要证明的东西,那就展示一些其他东西,并假装它们是一样的。
1948年10月共和党发表的一篇竞选陈述就是基于一些貌似相关,实则不然的数据:
1942年杜威(Dewey)当选纽约州州长时,一些地区的教师最低工资为每年900美元。而如今,该州的教师享有全世界最高的工资。1947年,根据委员会的表决,杜威州长安排立法机关从州财政盈余中划拨了3200万美元直接用于提高教师的工资待遇。因此,纽约州的教师最低工资水平提高至每年2500美元至5235美元不等。
真相是!!“之前”指的是纽约州农村地区教师的最低工资,“之后”指的是纽约市的最低工资。所以在杜威州长的领导下,教师们的工资也许提高了,也许没提高。(手动白白)
第八章 因果颠倒
两个钟都走得很准时,当“a”走向整点时,“b”也指向整点。是“a”让“b”敲响的吗?
因果谬误的产生原因,一是机缘巧合之下得出的相关,比如某牙膏品牌的实验。二是“协变关系”,即两个变量之间的确存在相关性,但无法确定哪个是因,哪个是果。
当原本论证的相关数据超出一定范围,结论也会发生变化。比如“雨水越多,庄稼长势越好”。但雨水过多则会有害。
第九章 如何操纵统计
利用统计材料给他人传递错误的信息,即为统计操纵。“今天买了20样东西,发现每一样的价格都比去年上涨了5%,那么加到一起就是100%,所以生活的成本翻了一番。”这都是瞎扯!
如果你的投资回报率从第一年的3%上涨至第二年的6%,那么,你可以低调地将其描述为增加了3个百分点,也可以将其说成增长高达100%。——民意测验投票的惯用手段。
在商业活动中,统计学家不会选择对自己不利的方法,就好比一个广告文案撰写人不会将委托方的产品说成“简陋、廉价”,他要说的是“轻巧、实惠”。
第十章 如何反驳统计数据
是谁这么说?研究总会出现有意识或无意识的偏差,以达到研究人员的目的,证明其想证明的观点。
他怎么知道?要格外注意那些带有偏差的样本。到底是因为选择不当,还是调查者有意识地选择对自己有利的材料从而造成了偏差?
漏掉了什么?留心那些未加说明的平均数,留意原始数据(有时材料只给出百分数而未给出原始数据),留意导致变化发生的因素。有人发布了一组数据,对比了今年四月和去年四月的零售销售额,目的是要证明今年经济处于复苏阶段。但遗漏的事实是,去年复活节加假期在三月,而今年的则是在四月。
有人偷换了概念吗?注意原始数据和最终结论之间有没有什么地方被偷换了概念,比如某种病例被上报的多,并不意味着患这种病的人就多(在特别监测某种疾病的时候,一点小症状也会被上报)。
这是否合乎情理?
《统计数据会说谎》读后感(十):统计分析也可以很实用哦
许多人觉得统计数据就是存在于新闻里的抽象派。
统计数据?
不就是每隔几年的人口普查?
是每年的GDP增幅?CPI指数?
好像都跟我没什么关系……
但是说到各地的平均工资水平、最低收入、纳税基数,很多隐性贫困人口就感到丧丧的:原来那些良好的自我感觉都是假象,我的收入拖了后腿还不到当地的平均水平???
那我们暂且先不讨论收入这种伤人的话题,就说说最常见的朋友圈爆款吧。
前段时间有关星巴克致癌的文章刷爆了朋友圈,文章称咖啡里的丙烯酰胺会诱发不可逆的基因损伤,60公斤成人每天摄取60毫克丙烯酰胺,患癌风险就将高出500倍。
但是,文章并未就一杯中杯星巴克含有的丙烯酰胺含量进行说明,也并未说明丙烯酰胺产生的原因以及是否在其他食品中也有存在。也缺乏对比含有同样丙烯酰胺跨食品的对比。
这就是文章的漏洞——看似科学的数据深究下来则是不攻自破的谣言。
原来统计数据也会说谎???
这么一来,下次再买买买之前要擦亮眼睛了:那些号称具有N年“科学临床数据”的产品说不定也是骗人的陷阱呢。
美国统计学家达莱尔•哈夫在他的传世之作《统计数据会说谎》中就帮助我们看清那些宣传中滥用统计数据的陷阱,这部作品也曾被逻辑思维推荐。
统计数据会说谎8.1达莱尔•哈夫 / 2017 / 中信出版集团股份有限公司下面,让我们来看一看达莱尔•哈夫借给了我们一双怎样的慧眼来洞悉那些推销员、广告商们营造的数据迷雾的。在《统计数据会说谎》中,达莱尔·哈夫从10个方面说明了统计数据的陷阱和如何反驳看似科学的统计数据。接下来,我重点从样本偏差、有选择的平均数、极端数据三个方面来解释统计数据是如何说谎的。
1、 样本偏差
统计的基础就是如何选择样本进行调查,抽取的样本数量足够大并且分布合理的话选取的样本是能够代表整体水平的。而在选择样本时会因为调查者、样本等多方面因素造成统计出现偏差。
回忆一下大学时你参加的街头拦截调查,你是不是会选择那些看起来年轻、好说话、以学生为主的群体来回答问题。这种情况就是因为调查者有意无意的选择而使抽样年轻化。而且,在参加诸如“你的年收入”是多少的时候,一般人都会虚报自己的收入让自己感觉好一点,而在年度纳税时,则会因为“合理避税”而让自己的收入最小化。
2、 有选择的平均数
算数平均数、中位数和众数都是一种有代表性的平均数。之所以会产生陷阱是因为根据不同的样本选择了没有代表性的平均数。
比方说常常被我们吐槽的平均收入。
大家都听说过二八法则,百分之二十的人占有百分之八十的收入。所以,针对某一群体的收入并没有遵循正态分布,而是一种偏态分布,差不多长下面这样,只不过峰值应该出现在末端。
由于高收入人群会拉高整体的算数平均数,所以针对某群体的收入,采用集中频率较高的众数,或者针对收入由高到低降序排列选择位于中间水平的中位数,可能更有代表性。
3、 极端数据
就是没有透露的小数据。这些没有透露的小数有的是因为样本量很小,有个是隐瞒了在何种水平下数据的差异是有意义的。
说到小样本,在一些广告中展示的临床试验中就很常见。两个贝壳一个涂抹了某牙膏产品,一个未涂抹某牙膏产品,浸没在酸性环境下,涂抹某产品的贝壳更坚固。但是,仅仅这两个对比样本就能说明产品的功效吗?贝壳真的能够代表牙齿吗?
显著性水平,听起来很玄乎,其实就是出现误差的概率。用一个成语来解释显著性水平就很容易理解。十拿九稳,就是出现误差的概率是0.1。因为心理统计挂科过一次,现在想起统计学还是瑟瑟发抖……但回想起来统计学知识真的很有用啊,起码看到某些一本正经胡说八道看起来差异很大表明效果很好的“科学数据”,心中还是能够非常冷静地抱之以呵呵的。
统计学毕竟还是一门博大精深的学科。想想曾经学过的概率论与数理统计、快要挂掉的高数和线性代数,再不济回顾一下中学时的课程或者是你的高考试卷。是不是没有想到统计学的应用是这么的广泛,比起你没有从事的本专业课程应用得更广泛了。
除此之外,统计学还是一种统计分析的批判性思维。这也是丹尼斯·韦特利在《成功心理学》中强调的想要成功的心理学要素之一。达莱尔•哈夫也在《统计数据会说谎》中强调了统计分析能力和读写能力一样,是一种了解真实世界的必备技能。在数字时代,面临海量数据,如何从中筛选出真实、有效的信息,化为己用,而不是人云亦云不假思索地拿来就用,这本《统计数据会说谎》会教会你很多。