《看穿一切数字的统计学》是一本由[日]西内启著作,中信出版社出版的平装图书,本书定价:36.00元,页数:2013-9,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。
不是具体详实的统计学方法教授,更像方法论的讨论。所以比较适合掌握统计学实操的人,作用是作为思维点拨。
。。。。。。。。。。。。。。。。。。。。。。。。。
。。。。。。。。。。。。。。。。。。。。。。。。。
《看穿一切数字的统计学》读后感(二):深入浅出的统计学入门
日本统计学家写的统计学入门。深入浅出介绍统计学最常见的几个应用场景:抽样调查,随机对照,回归分析等,挺有趣的。对统计学感兴趣的,想复习统计学的,都可以看看。
同意作者在书中表达的一个思想:统计学思维是现代人应该掌握的非常重要的一种常识。个人感觉,在个体遇到医疗健康相关的问题,企业家遇到经营管理问题的时候,都容易以偏概全,认为个人体验到的就是总体的全局的情况。
《看穿一切数字的统计学》读后感(三):应该知道点统计学知识
统计学真的是一门非常强大和实用的学科与工具,正如书中所说答案就隐藏在我们身边的数据中,但是需要我们有统计学的思维和知识去发现它。
这本书系统地介绍了统计学的诞生与发展历程,介绍了一些简单常见的统计学方法。
个人认为这本书值得一读的原因还有:1.总结了“涵盖广义线性模型的一张图表”,通过它可以更加清晰地理解统计学的整体概念和方法;2.总结了6大类统计学思考方法,并比较了它们的异同,其实方法没有好坏之争,只有选择的合适与否;3.理性地介绍和分析了目前十分流行的数据挖掘,指明了数据挖掘的优势与局限性。
相较于掌握这些统计学工具与方法,具有统计学思维更加重要。
##我们先从书名开始吧。中文名是看穿一切数字的统计书,好像很厉害的样子,但日文名是統計学が最強の学問である,虽然你看不懂日文,光看几个中文字也能看懂,就是统计学是最强的学问,也够厉害了。
日本人喜欢用最强最什么最什么这样的表述。实际上这本书有没有这么厉害呢,肯定是没有的。应该说统计学的确是有那么强,只是这本书不强而已。
一本书是不是有用或者是不是好看,取决于你对它的期望。看这本书之前,你是想学到什么,或者是听谁介绍很好看,然后再来看的,看完有没有达到预想的预期。超出期望当然就是高分,或者是好书,反之就不行了。
这本书看书名,看穿一切数字,你是不是想有这么厉害?
#是啊,我就是期望着我看完就能学会看数字辨真假,最好能看懂股市的数字就更好了。
##这书名的确有这样的歧义,上面也说过了,这样的书名根本就是标题党,人家原名并不是叫这个。即使如此,你看完这书恐怕连买菜都学不会。你来到菜市场或者超市,看到一个东西想买,看了看价钱,是贵还是便宜啊,赚了还是亏了啊。
#这个好,我想学。
##我也想,这本书会这样教你,你拿到各个卖场的这个东西的价钱,然后比对,就知道到底贵不贵。
#这个谁都会啊,关键是没拿到数据。我要是有数据我就知道贵不贵了啊。
##那就给个难一点的,某店给出的第二杯半价是谁赚了,买家赚了还是卖家赚了?
#这个难说。
##买家买便宜了,相当于一杯只用四分之三的价钱,打了个七五折。卖家打了七五折,但提高了百分之一百的销量。七五折甚至五折以下的东西平时都很常见,但销量提高百分百就不容易了。听起来好像很多,但还是要结合销售额。
#说到底不还是要数据。
##数据是一回事,会不会分析又是另外一回事。就算给你一大堆数据,你分析不出来,或者像一般人一样简单算个率,那就没有用了。不会分析数据也就算了,但不懂看数据分析就麻烦更大,因为会被别人的数据整理骗倒。数字这种东西,会的人只要鼓捣一下,就能骗普通人。
#我就要学分析方法和鉴别方法。
##但这个书没教,看完你连基本的都不会。作者会叫你先去学一下基本的统计学知识。
#要我去学还要这本书干嘛。
##那也不是。作者虽然没教你怎么算,但一直在告诉你统计学很有用,要好好学,不骗人至少也不能被人骗。统计学发展到现在不容易啊,很多很多年前连个流行病学调查都没人会做,大批大批的人得传染病死。而且一开始统计学要数数多麻烦啊,拿笔一个个算,想要做个人口普查,全部查完刚好可以准备下一次普查了,计算机发明以后统计学简直就是捡到了一把绝世武器。
#我早就知道统计学有用了,而且我必须要用。
##那就行了,好好去学吧。
《看穿一切数字的统计学》读后感(五):真理vs 真值
统计学门外汉的科普书。仍然是日本此类书籍的一贯写作风格,好懂。
书里有一个观点,人们一般想要知道的,其实是那些怎么想也总想不明白的问题,也就是,这类问题并非浅白的因为所以科学道理。而是那种说不清的不明就里。只有依赖于统计学来掌握其中规律(概率)。结合费希尔对于真值的定义,无限数据下得到的值。无疑,两者之间更像是一场大数据挖掘与逻辑科学的较量。
另一个,是作者对于抽样统计的肯定。在足够数据才能得到真值检验真相的前提下,抽样统计的存在似乎就是一个与之违背的小学生实验。但成人世界不是简单的非黑即白。抽样统计的意义在于效率。在一个精度范围里,节省了各种消耗,抽样统计是经济人的更好选择。
最后,上述两个观点都必须考虑尾部风险。因为现实里经常没有足够的数据,也不知道何时会出现刷新历史的情况。
真理是一段段经验总结通俗易懂的文字,而真值是我们努力探寻更加接近真理的方法。
1、只有统计学才能给出“针对现状最佳的答案”。
2、抽样调查的准确率确实比全面调查要低,但问题在于究竟低多少,以及准确率较低的结果对实际判断和应该采取的行动会产生怎样的影响。反过来说,对判断和行动不会产生影响的准确率是毫无意义的,为了这些毫无意义的准确率所花费的成本都是一种浪费。
4、费希尔时代与之前的统计学之间最大的区别,就在于是否考虑误差。
5、像这种“实际上没有任何区别,只是因为误差或偶然产生数据差(甚至有可能包括极端的差距)的概率”在统计学上称为p值。p值越小(一般在5%以下)数据越准确。
7、当我们面对“找不到正确答案的问题”时,首先应该想到的就是进行随机对照试验。只要采取随机对照试验,并且对后续的数据进行采集,至少能够在通往正确判断的道路上实实在在地更进一步。
8、excel中“=rand()”能够得到一个随机数。
9、面对那些不管怎么想都想不出所以然的问题,我们所能做的是采取随机化的方法,利用统计分析的方法聆听答案。
10、没有进行随机对照试验的分析,准确地说是并非公平的比较。
12、费希尔将“如果拥有无限的数据就能够得到的真正想要知道的值”称为“真值”。
13、截距和斜率都是通过数据计算出来的数值,都是基于数据对“真值”进行的估计。
14、标准误差:估计值的误差。与回归系数的估计值相比,标准误差越大,估计值越不准确。
15、连续值:T检验;是否等二值:卡方检验
16、卡方值越大改善度越大。
17、数据挖掘最常用的方法是从归属于人类认知功能的分类中诞生。
对人工智能来说,“分类”大致上有两种方法:一种是“有教师的分类”一种是“无教师的分类”。
如果将家具的高度、重量以及有几个接地点等数据输入进去,那么接下来需要做的就是“将相似性较高的分为同一组”。一定会出现“椅子或者数据上类似椅子的家具”这一分类。这种方法属于无教师分类,其中最具代表性就是聚集性分析。
直接告诉对方“这是椅子”的方法,是有教师的分类。
18、聚集性分析“只能够进行分析”,至于分类后的结果各自属于什么类别,需要对其进行人工识别和判断。
19、如果使用神经元网络和支持向量机的方法,可以对包括曲线关系和交互作用在内的情况,进行最具识别力的分类。
20、神经元网络会在输入数据中产生出“中间层”的值。中间层的数量和中间层包含的变量的数量可以任意设定,不过一般都是通过输入数据的有用项目,按照实际情况自动计算出中间层的数量。
21、逻辑回归(没有交互作用)是单纯通过输入的数据来对结果进行直接预测。
假设只通过“高度”、“重量”两个数据对椅子和桌子进行区分,根据虚线的两边判断是椅子还是桌子。
22、不管是神经元网络还是支持向量机,只要是针对曲线或者有多个变量存在的复杂关联性数据时,都比回归模型更加准确高效。
23、在并非以预测为目的,而是希望知道预测模型今后应该怎么做,回归模型就会发挥巨大的作用。
24、频率派与贝叶斯派之间,两者区别用一句话来概括就是“是否在事前预测某种概率”。
25、贝叶斯派在对硬币判断时,首先会在没有任何信息的时候考虑这枚硬币有多大概率式真硬币或者“老千硬币”。
如果只能对硬币进行3次投掷,那么频率派的方法就无法对硬币进行判断,而贝叶斯派至少能判断出硬币属于哪一种可能性更大。
26、在进行“不允许出现错误”的保守判断时,基本上都会选择频率派的方法。如医疗领域。
27、在例如判断是否垃圾邮件的问题上,贝叶斯派的方法可以在1秒就完成判断。
28、通过对有限信息与假设进行组合,追求“效率”的时候使用贝叶斯思考方法,追求“准确性”或者“拥有足够数据”的时候使用频率派的方法求p值更好。