《看穿一切数字的统计学》读后感1400字
1.通过数据之间的关联性、利用因果关系进行推论的现代统计学的基本思考方法,早在20世纪初期就已经确立,主要的统计分析方法则在20世纪60年代全部出现。如今,距离被称为现代统计学之父的罗纳德•艾尔默•费希尔去世已经过了半个世纪。
2.抽样调查虽然比全面调查准确率低,但节约成本,在保证随机性的基础上,用抽样得出的结果当作值输入,得出标准误差,然后再算出真实值的范围,还是很有参考价值的。
3.利用大数据技术将所有的数据进行单纯统计,只不过是将最新技术应用在两个世纪前的方法而已。这种行为无异于拿最新型的智能手机当作锤子砸核桃。
4.当想对两个方案进行比较看哪个方案更优秀时,随机对照试验是很不错的选择。采取随机化的方法,可以使进行比较的两组之间各个条件基本相同,保证了对比的公平性。
5. 回归系数的估计值:截距和斜率(x)都是通过数据计算出来的数值,都是基于数据对“真值”进行的估计。
标准误差:估计值的误差。与回归系数的估计值相比,标准误差越大,估计值越不准确,不过同时还要考虑接下来要提到的置信区间。
置信水平为95%的置信区间:假设包括0在内的许多回归系数,算出“p值在5%以下时真值”的范围。基本可以认为“真值就在这个范围之内”。
p值:假设回归系数为0的情况下,只能通过数据的随机性推测回归系数的概率。一般来说当这个值在5%以上时,可以认为“就算回归系数为0也不可能出现”。
6. 有一种由于无法进行“公平的比较”导致对数据做出错误判断的情况,被称为辛普森悖论。分组分析能够防止辛普森悖论产生,但要求分组的条件比较苛刻。
7. 所谓倾向指数,就是判断拥有二值的解释变量“究竟应该是哪一个”的概率。通过前面介绍过的逻辑回归方法,就可以非常简单地得出倾向指数。
8. 斯丕曼的分析方法,现在被称为因子分析法。就是从各自相关的多个数值中,计算出与所有数值都关系紧密的合成变量。这个合成变量被称为因子,因子分析法也由此得名。但如何合理的选择因子,很有学问。
9. 在人工智能领域中,根据思考方法的不同分为几大类,而数据挖掘最常用的方法则是从归属于人类认知功能的分类之中诞生出来的。比如,我们人类面对拥有一定高度的家具时,能够非常清楚地分辨出哪些形状的是“椅子”,而计算机就无法分辨什么样的家具属于“椅子”。这样的认知就属于“椅子”和“椅子之外其他家具”的分类。对人工智能来说,“分类”大致上有两种方法:一种是“有教师的分类”,另一种是“无教师的分类”。
如果将家具的高度、重量以及有几个接地点等数据输入进去,那么接下来需要做的就是“将相似性较高的分为同一组”。如果利用椅子之间数据的相似性要高于椅子与衣柜之间数据相似性的特点对许许多多的家具进行分类的话,其中一定会出现“椅子或者数据上类似椅子的家具”这一分类。这种方法属于无教师的分类,其中最具代表性的就是聚集性分析。要是想从家具的数据中找出“椅子”,与其单纯地依靠类似性进行分类,不如直接告诉对方“这是椅子”。这样的话,可以得到更加准确的数字。这种直接告诉对方“这是椅子”的方法,就是“有教师的分类”。
10. 语素分析指的是将文章分解为单词,然后统计各个单词分别出现过多少次的计算过程。在语言学中,“语素”指的是比单词更加短小,“在语言中拥有意义的最小单位”。比如说,“不稳定的”这个形容动词,其中“不”是否定助词,“稳定”和“的”属于形容动词。
转载请注明出处海之美文 » 《看穿一切数字的统计学》读后感_1400字