1. Zane SEO首页
  2. 数据分析

《统计数据会说谎》读后感

数据本身不会说谎,但说谎者需要数据。统计数据在决策时拥有十分重要的意义,然而许多统计机构却经常以一些谎言掩盖数据的真实性,因此,学会识破统计数据中的一些常见小把戏非常有必要。

从今天开始,打算定期写一些读后感笔记。今天就拿来一本统计学科普小读物《统计数据会说谎》,通俗易懂,每次看完都有新感觉,对待统计数据时,要有自己独立思考,要具备数据思维,去怀疑数据,不被数据带进去。

1. 带有偏差的样本–样本选择是否有代表性

案例:比如报纸特别刊登’耶鲁大学1924届毕业生平均年收入高达25111美元’,

实际上:该数据样本来自于很小比例部分,愿意回复的毕业生成员组成。

应用: 这就跟我们经常听到某城市发布人均可支配收入,或月薪高等等。经常感觉自己拖祖国后腿,但实际上,很多报告的抽样标准不一样。这数据一看,让自己心里多想了。

所以: 学校毕业生平均工资高≠你推荐孩子读这个学校,就可以高枕无忧了≠你孩子读这所学习毕业后工资高。

核心

  • 样本选择是否有代表性不仅看抽样是否合适,还要看抽样对象有没有说实话,有没有政治倾向,环境因素等等。抽样调查的结果一般不会比它所基于的样本本身更好:因为一条河流不会高过其源头。
  • 一份基本的有代表性的样本报告,应该排除可能产生偏差的任何可能性;同时任何显性或隐性因素都可以摧毁样本的可靠性;
  • 开篇第一章就讲述了抽样,这是整个统计学的核心。在民意调研和市场调研等领域,分层随机抽样法被广泛采用;但话又说话来,没有100%精准的数据,任何统计结果都带有一定的偏差。

2. 精挑细选的平均数—哪一种数:平均数,中位数,众数?

案例:某房产销售在卖房时对你说,该小区住户的平均年收入是500万;当你买房入住后,又看到他在游说街道办给该小区低收入补贴,宣称小区户主的平均年收入只有5万。

实际上:这两个数据可能都是有真实数据支撑的。平均年收入500万可能只是因为有一个富豪在该小区投资了一套房,而其他都是穷人也说不定。

应用

  • 不同的数,有可能来自相同的数据样本,相同的群体等。
  • 广告者利用最有利于的数据推广,但消费者懵逼。
  • 数据表面情况越好,事实真相可能越糟;
  • 正太分布,有时3个数会坐落同一点,有时会差很多
  • 问平均工资时,要问什么样的平均工资任何数据,要看谁说的,怎么得知的数据以及有多准,否则,数据说明不了任何问题。

3. 没有透露的小小数据-关键数据不全

案例:某广告声称:使用某牙膏后用户的蛀牙减少了23%!

实际上:真的有那么明显的差别吗?再看该广告的小字部分,调查组只有12个人。并且,你不知道厂家做了多少组实验,才获得了“蛀牙减少23%”这个显著的成果。

应用

  • 数据样本不够大只有实验样本足够多时,平均数定律才会是一个有用的描述或猜测;
  • 实验概率,忽视一个事实—小儿麻痹症的概率本来就很低,若实验组测试人数不够,那也是无稽之谈;
  • 观察≠观点 (发现什么普通存在≠赞成/反对) ;
  • 验证实验数据是否真实而非机缘巧合得出的:看是否有透露小小数据
  • 小小数据有欺骗性,不容易意识到它的存在;
  • 记者希望我们不假思索地阅读,以此制造我们了解某些东西的愉快幻觉;
  • 没有任何重要数据情况下,不要轻信平均数,趋势,图表。否则,容易像凭平均气温28°选择不带羽绒服露营地的人一样;

4. 无事瞎忙

案例: 智力98 VS智力101

实际上:数据总是有偏差的

应用

  • 将数据对比起来,是编者抓住的最后一根救命稻草;
  • 只有有显现出来的差别,有意义时才可称之为差别;

5. 惊人的图形

过分截取将导致数据真实性扭曲

把本来变化很小的数据,用夸张的手法,体现数据波动的巨大差异。

6. 看似相关的数据

案例:1898年“美西战争”期间,美国海军的死亡率是9‰,而同期纽约市市民的死亡率为16‰。后来,海军征兵部门的人就拿这个数据来说明待在部队更安全。

实际上:假设这些数据都是精确的,因为它们可能很准确。但征兵人员根据它们得出的结论是否毫无意义。

应用

如果你无法证明你想证明的,把一些数据摆一起,并假装它们是一样的。也就是结论是对方推理得到的,还是把一堆相关事物堆在一起得到的。

7.因果颠倒

案例:抽烟多,导致成绩差?

应用

  • 2件事互不为彼此因果,它们由某个第3事件的产物;
  • 变量之间存在相关性,无法确定哪个是因,哪个是果
  • 相关性≠因果性(但现实人们容易潜意识去联系理解)
  • 数据源≠结论源
  • 如何避免:想想发生的过程和背景信息
  • 正面观察的结论,反推之不一定成立

9.如何反驳统计数据

  • 1. 谁说的
  • 2. 他怎么知道这个数据的
  • 3. 漏了什么关键信息
  • 4. 原始数据和结论是否偷换概念
  • 5. 过程是否合乎情理

《统计数据会说谎》读后感

俗话说:世界上有三种谎言:谎言、弥天大谎和统计数据!其实,作者的本意并不是指责负责数据的统计学家,而是出于对人性的了解,知道原本中立的数据在推销员、公共关系专家、记者和广告文案撰写者的手里,难免会被歪曲夸大或过分简化,最终的分析结果与数据反映的实际情况相差万里。

所以,我们要擦亮眼睛,学会识破统计数据说谎中的一些常见小把戏。

发表评论

电子邮件地址不会被公开。