「数据会说谎」的真实例子有哪些?

究竟是数据在说谎,还是逻辑在说谎?最好是你遇到的真实案例,你是如何判断数据表明的错误的?
已邀请:

谢科

赞同来自:

截图说话——哗众取宠的美国Fox news经常用的一些招数。

这些招数更多的是从视觉上给人一种“错觉”。比如说,本来不大的差异,截掉Y轴的一部分,瞬间差异就会让看的人觉得——差得这么多!!!

想象你明天要跟你的经理作报告,手里有一堆结果,但是显然这些结果对于之前的方法只有边际的增长——好消息是,你几乎一定可以找到一个方法,在数据变化不大的时候却给人造成视觉的冲击。

例子:
1)在趋势图中,为了说明增长趋势多明显,把Y调成不从0开始。这样差距会看起来很大,增长很大,但是如果把Y轴从0开始看的话,会显得基本没有差距。



差距够大吧!!!巨量增长啊!我们公司的财务情况这样的话,公司明年就得IPO啊!!

可惜Y从0开始的话,这图应该看起来的样子是:



p.s.刚发现在用Excel画这图的时候,excel都自动把Y轴的起始值调成比最小值多一点!这样看起来差距真是巨明显有没有!看来M$真是很懂画图的真正需求啊:D

2) 另外一个例子,作两两比较的时候把Y的值从高位开始,造成俩差距巨大的错觉



看啊,右边比左边高了4倍不止!!!咦,等等,不是就39.6%跟35%的差别吗....这...

3) 分数加起来不等于一,放大差距。



图上的数据normalize一下的话那么佩林是36.2%,32.6%,31.0%,直观差距不大。但是在这个饼型图里瞬间变成了10%的差距!这个比较明显的话那看下面
图上的数据normalize一下的话那么佩林是36.2%,32.6%,31.0%,直观差距不大。但是在这个饼型图里瞬间变成了10%的差距!这个比较明显的话那看下面

这里



一扫的话没发现这里百分数加起来不等于1了吧。


4) 挑取x轴的数据以捏造趋势



假设数据的波动性很大,比如说如下

10, 1, 20, 3, 30, 4, 50
看起来应该是



擦勒,公司的财务状况这么不稳定!!!怎么办!


没关系——如果我只抽取奇数项的话(挑取x轴,虽然挑得好像是很有系统地——奇数,但是你总能想到一个看着挑得系统的方法)
就会看着像



TMD明年又可以上市了。。。

等等等等...

部分图片来源于
http://simplystatistics.org/2012/11/26/the-statisticians-at-fox-news-use-classic-and-novel-graphical-techniques-to-lead-with-data/

Han Hsiao

赞同来自:

Numbers don't lie.
最近发现大家对
如何成为一名数据科学家?的答案比较关注,表示受宠若惊。最近有点小忙,但作为一名DMer鄙人决定继续分享一些知识来回报各位厚爱。下面是看统计报告时要注意的点。


一、数据来源如何说谎
最简单的层级,在查阅统计报告之前首先应该关注的是报告出处以及数据来源。以工业品和消费品为例主要的数据来源如下所示:



关于数据的来源我们需要注意四点:


(1).数据发布机构是否权威?(代表性)
网上主流的数据资源太多,以下列举一些,不一而足。


(2).是否是发布机构原版文件?(可信度)



(3).数据采集面向的对象?(调研主体)
举例说明。产品可分为工业类产品和消费类产品,它们在基本属性、购买特征、营销理念等方面有本质的不同,所以需要调研的主体不同。

  • 工业类产品:供需双方一般都是企业,需要了解总产值、总产量、销售总额、销售总量,所以调研主体以企业为主。
  • 消费类产品:面向大众消费者,统计口径一般是零售市场消费总量、总额,所以调研主体以个体消费者为主。





(4).数据是一手数据还是二手数据
?(时效性,相关性)

  • 一手数据(Primary data):也称原始数据。指通过人员访谈、询问、问卷、测定等方式直截获得的,时效性和相关性更好。
  • 二手数据(Secondary data):利用文献,统计年报以及数据库等前人统计好的数据资料。优点是获取成本低,且现成可用。一般可以长时间保存,生成数据趋势图方便。
栗子:研究人员希望了解工人在遇到工伤后返回工作的情况。

  • 一手数据:通过电话采访工人,询问他们多久时间能回到工作、以及返回到工作流程等问题。研究人员得出结论,包括返回到工作流程包括提供优惠住宿,以及为什么一些工人拒绝了这样的提议。
  • 二手数据:包括政府,企业的健康和安全记录,例如工人的受伤率,以及工人在国内不同行业的数据。研究人员发现了工伤索赔额度与全职工人工资额度之间的数量关系。
最后将两个数据源相结合,研究人员便能够找到那些能够让受伤的工人愿意马上回到岗位的因素。

通过例子可以看出,一手数据提能够提供量身定制的信息,但往往是需要很长的时间以及昂贵的成本。二手数据通常是能够廉价的取得,而且可在更短的时间内进行分析,但由于数据获取的初始目的可能与研究目的不相关,需要梳理信息来提取您要找的内容。数据研究人员选择的类型时候应该考虑很多因素,包括所
研究的问题,预算,技术和可用资源。基于这些因素的影响,他们可能会选择使用一手数据或二手数据,甚至两者兼备。


(5).
数据采集方式是什么?(投票方式)
在网络上进行投票还是在现实中分发问卷有很大的不同,两者都有很多细节点需要注意。

  • 网络投票:如何防止机器人,恶意投票以及UI的设计是关键。可以参考推荐系统的用户反馈设计。
  • 现实问卷:如何设计题目(逻辑性、完整性、非诱导性)以及投放方式(时间、地点、对象)是关键。可以参考调查问卷的设计与评估 (豆瓣)


二、数据统计
如何说谎

数据统计中常常会出现的谎言,这是因为虽然原始的数据相同,但是数据处理的过程不同。具体情况通常可分为四种:抽样方法、样本选取、离群值处理及统计指标设置。

(1).抽样方法的区别


整体样本的维度,粒度和取数逻辑相同的情况下,不用的样本抽样规则会使数据看来更符合或不符合“预期”,从而实现特殊目的。我们知道最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。其中概率抽样方法分为四种:

  • 随机抽样(Simple random sampling)
方法:将调查总体的观察单位全部编号,再随机抽取部分观察单位组成样本。
优点:操作简单,均数及相应的标准误计算简单。
缺点:总体较大时,难以一一编号。

  • 系统抽样(Systematic sampling,又名机械抽样、等距抽样)
方法:先将总体的观察单位按某一顺序号分成N个部分,再从第一部分随机抽取第k号观察单位,然后依次使用相等间距,从每一部分各抽取一个观察单位组成样本。
优点:易于理解、简便易行。
缺点:总体有周期或增减趋势时,易产生偏差。

  • 整群抽样(Cluster sampling,整体抽样)
方法:总体分群,再随机抽取几个群组成样本,群内全部调查。
优点:便于组织、节省经费。
缺点:抽样误差大于单纯随机抽样。

  • 分层抽样(Stratified sampling)
方法:找到对观察指标影响较大的某种特征,从而将总体分为若干个类别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有按比例分配和最优分配两种方案。
优点:样本代表性好,抽样误差减少。
缺点:抽样过程繁杂。


各种抽样方法的
抽样误差一般是:整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。

栗子1:在建立客户流失模型时,使用
分层抽样。假如两次调研的抽样样本分别是最近一年未消费流量的客户和最近一年未消费流量但经常收发短信的客户,不用做测试基本上就可以确定后者的流失可能性更小。而如果使用随机抽样则很难得出上述结论,所以数据抽样方法的选择对结论影响较大,实际操作时具体需要深入到SQL查询逻辑的研究。


栗子2:普林斯顿大学的信息技术政策中心(CITP)和北卡罗莱纳州大学教堂山分校(University of North Carolina at Chapel Hill)在2013年发表了一篇文章《Big Data: Pitfalls, Methods and Concepts for an Emergent Field:大数据:一个新兴领域的陷阱、方法和概念》。通过实验对一些市场营销人员发出警告:请首先确认抽样的方法是否能够真正地覆盖的整个市场,不要对从社交媒体渠道(如Twitter和Facebook)收集的消费者数据过于自信。


1.Inadequate attention to the implicit and explicit structural biases of the platform(s) most frequently used to generate datasets (the model organism problem).

2.The common practice of selecting on the dependent variable without corresponding attention to the complications of this path.

3.Lack of clarity with regard to sampling, universe and representativeness (the denominator problem).

4.Most big data analyses come from a single platform (hence missing the ecology of information flows).


作者Zeynep Tufekci(博客地址:technosociology,北卡罗来纳大学教授)通过描述对果蝇进行生物测试的方法,质疑很大程度上依赖社会化媒体形成的大数据方法论。大多数的大数据集(Big datasets)研究只包含“节点到节点”(Node-to-node)之间的信息互动;然而面对社会中的群体性事件,无论是通过经验分享或通过广播媒体传播,“场”(Field)效应的地位更加重要。一个典型营销活动(Twitter、Facebook上)的用户参与百分比只有10%,只代表一定的细分市场,可能扭曲调查结果。这些市场调差报告不能准确反映市场的数据,所以无法据此制定出可靠的未来计划。


(2).样本选取的区别

从严格意义上来说统计范围的选择问题并不一定是故意欺骗,因为在数据采集的实践中确实存在样本量失衡的情况,如果遇到这种情况一般使用欠抽样(Under-sampling)和过抽样(Oversampling)进行样本平衡。通常来说样本的问题主要分为以下三种情况:

  • 样本抽取的数量。这一点很容易理解,数据样本量差距越大,可比性越小。尤其是在样本分布不均时,数据结果可信度低。
  • 样本抽取的主体。为了制造某种统计结果而故意选择对结果有利的样本主体。如针对农村用户和城市用户统计某手机市场占有率,后者结果肯定优于前者。
  • 样本抽取的客观环境。比如做运营商网站用户体验分析(User Experience,简称UE),ISO 9241-210标准中对用户体验的定义有如下补充说明:用户体验,即用户在使用一个产品或系统之前、使用期间和使用之后的全部感受,包括情感、信仰、喜好、认知印象、生理和心理反应、行为和成就等各个方面。三个影响用户体验的因素:系统,用户和使用环境。如果测试方法都没有完全相同的客观环境,即使选的是相同样本和用户,分析结果可信度依然较低。

更多资料推荐:

抽样调查设计导论 (豆瓣)

Sampling (豆瓣)(豆瓣版本老,现在有09年新版)


(3).离群值处理方法的区别
离群值(Outlier,异常值):指样本中的个别值,其数值明显偏离其所属样本的其余观测值。




离群值与非离群值之间并没有明显的区别。实际上,用户必须指定一个阈值,以便界定离群值。偏差度高于这个阈值的所有集群被标记为离群值集群,它们的成员都是离群值。如上图中所示。如果设定阈值600,则Cluster3为离群值。
离群值与非离群值之间并没有明显的区别。实际上,用户必须指定一个阈值,以便界定离群值。偏差度高于这个阈值的所有集群被标记为离群值集群,它们的成员都是离群值。如上图中所示。如果设定阈值600,则Cluster3为离群值。


目前对离群值(Outlier)的判别与过滤主要采用两种方法:物理判别法和统计判别法

  • 物理判别法:根据人们对客观事物已有的认识来判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果。
  • 统计判别:给定一个置信概率,并确定一个置信限,凡是超过此限的误差我们就认为它不属于随机误差范围,将其视为异常值过滤。

通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。极值很可能是离群值,此时如何处理离群值会直接影响数据结果。

栗子:某一周的手机销售数据中,存在异常下单行为导致某一品类的销售额和转化率异常高。如果数据分析师选择忽视该情况,结论就是该手机非常热销抓紧供货,但实际情况并非如此。通常需要把会把离群值拿出来,单独做文字说明。


(4).统计指标的区别
数据统计的业务指标成百上千,根据不同目的选择合适的指标组合,就能实现说谎的效果。

我们都知道,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,
平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。

平均数在数学中可分为,算术平均数(arithmetic mean),几何平均数(geometric mean),调和平均数(harmonic mean),加权平均数(weighted average),平方平均数(quadratic mean)等。一般人大家所说的“平均数”就是算术平均数,即N个数字相加然后除以N。而“平均数”在统计学中包含三种:
算术平均数、中位数、众数,都是用来描述数据平均水平的统计量。


  • 算术平均数(Arithmetic mean):一组数据中所有数据之和再除以数据的个数。





  • 中位数(Median):将所有数值从高到低排列,最中间的数值。
栗子:1,2,3,4;排序后发现有4个数怎么办?
若有n个数,n为奇数,则选择第(n+1)/2个为中位数;若n为偶数,则中位数是(n/2以及n/2+1)的平均数。所以此例中位数为2.5。

  • 众数(Mode):所有数字中出现频率最高的数值。
栗子:1,1,2,2,3,4的众数是1和2。如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2,3,4没有众数。

通过公式我们可以看出:
算术平均数易受极端数据的影响。
中位数不受分布数列的极大或极小值影响,在一定程度上对分布数列的具有代表性。但缺乏数字敏感性,有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。
众数不受极端数据的影响,而且具有明显集中趋势点的数值,能够代表整组数据的一般水平。在这三个平均数中,
算数平均数是能够取得最大数字的平均数,所以,一般的统计调查都用的是这个做结论,比如平均工资。所以有时候大家会发现自己的工资“被平均”了,或者拖后腿了就是这个原因。
2013年北京月平均工资5223元


结论:对于不同的统计平均值的方法,得出的数据结论是不一样的。有太多人利用本来正确的统计数据来穿凿附会得出自己需要的结果,有些原始的统计数据往往是由权威机构或人士做出的,只是被其他人赋予了原调查目的之外的其他意义。 所以一般见到平均数后,首先查明使用的是哪种平均数计算方法,然后试着用另外两种分析一下,看看是否有破绽。

更多资料推荐:

Mind on Statistics (豆瓣)

统计学 (豆瓣)

Applied Multivariate Statistical Analysis (豆瓣)


三、数据可视化
如何说谎
统计数据的表现方法千差万别。虽然数据相同,但表述方式不同,呈现的效果也不同。


(1).图表长宽



由《系统事务平均响应时间趋势图》可见,将图表的长宽比(长=横轴,宽=纵轴)从1:1拉伸到2:1后,数据发展趋势明显变缓。如果需要突出数据的爆发性增长,可以缩短时间间隔或记录次数(横坐标)。
由《系统事务平均响应时间趋势图》可见,将图表的长宽比(长=横轴,宽=纵轴)从1:1拉伸到2:1后,数据发展趋势明显变缓。如果需要突出数据的爆发性增长,可以缩短时间间隔或记录次数(横坐标)。

  • 左图暗示“系统事务平均响应时间在测试场景开始以后快速突破150秒”
  • 右图暗示“系统事务平均响应时间随着测试场景执行时间延长逐渐增加”


(2).取值间隔



由上图可知,如果数据的取值间隔划分过大(等比数列1,10,100,1000,10000)而不是标准等差数列(1,2,3,4),则数据之间巨大差异会被缩小。

  • 左图暗示“湖北、河南、江苏总产值排名前三远超其他省市”
  • 右图暗示“各省市总产值相差并不太大”


(3).数据标准化
数据标准化也是归一化的过程。在数据分析之前通常需要先将数据标准化(Normalization),目的是去除奇异样本数据(相对于其他输入样本特别大或特别小的样本矢量),将数据按比例缩放,使之落入一个小的特定区间。或者去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,而且能保正程序运行时收敛加快。



如上图所示,正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.(
如上图所示,正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.(
Standard score)

数据标准化常用方法有“Min-max”、“Z-score”、“Atan”和“Decimal scaling”等。

  • Min-max标准化(Min-max normalization)
适用于原始数据的取值范围已经确定的情况,缺点是当有新数据加入时,可能导致Max和Min值变化需要重新定义。设MinA和MaxA分别为属性A的最小值和最大值,将A的一个原始值x通过Min-max标准化映射成在区间【0,1】中的值,公式为:





  • Z-score 标准化(Zero-score normalization)
又名标准差标准化。经过处理的数据符合标准正态分布,均值为0,标准差为1。设μ为所有样本数据的均值,σ为所有样本数据的标准差。公式为:






  • Atan函数转换

使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。所以通过atan标准化会映射在区间【-1,1】上。




  • 小数定标标准化Decimal scaling
通过移动数据的小数点位置来进行标准化,小数点移动多少位取决于属性A的取值中的最大绝对值。这个方法比较容易理解


一个简单的例子对比如下图所示:



了解更多:

数据可视化经典例子:



四、结束语

数据如同金矿,需要人使用工具来开采、提炼、加工。

所以数据不会说谎,使用数据的人才会说谎;有些人是无意,有些人是蓄意。


祝每一个DMer都挖掘到金矿和快乐:)

参考文献:

[1].维基百科Sampling (statistics)
[2].数据抽样方法(浙江大学《数据统计》)
[3].常见的“数据说谎”(TonySong,Webtrekk Business Consultant)
[4].融合过抽样和欠抽样的不平衡数据重抽样方法
[5].《Asking The Right Questions:A Guide to Critical Thinking:学会提问-批判性思维指南》
[6].《How to Lie with Statistics:统计数字会撒谎》
[7].《Big Data: Pitfalls, Methods and Concepts for an Emergent Fielde》
[8].primary data and secondary data
[9].性能测试中常见的loadrunner analysis误导
[10].《Data Mining: Concepts and Techniques》, Jiawei Han and Micheline Kamber

[11].Data Normalization and Standardization

秦吉宁

赞同来自:

有好事同志专门搞了一个网站来收集“八杆子打不着但看着贼拉靠谱的相关关系”,几乎就是专门让大家来扯淡装叉用的。
几个例子:

尼古拉斯凯奇在电影中的出镜次数和淹死在游泳池里的人数:



肯塔基州的结婚率和从渔船里掉出来淹死的人数:



全美滑雪场的总收入与被床单缠住致死的人数:




所有例子图片都来自
20 Insane Things That Correlate With Each Other

夏夏moe

赞同来自:



多应景

鱼非鱼

赞同来自:

很多人觉得飞机更安全(
飞机是最安全的交通工具吗? - 飞机),都是看了维基百科上这个国际数据(我也曾是其中一员),三栏分别是每10亿次旅行事故死亡人数,每10亿旅行小时事故死亡人数,每10亿公里事故死亡人数:



数据来源:
The risks of travel
Motor Vehicle Crash Injury Rates by Mode of Travel, United States: Using Exposure-Based Methods to Quantify Differences

注:在交通政策界,一般认为最合适的比较口径是每人公里。因为实际旅行者面临的出行选择是对一个确定的A点到B点的旅行是坐火车还是飞机,这是里程相同(或者相近),但旅行次数和时间都可能不同。飞机因为飞得快,所以虽然技术上风险大,但对于同样的里程,通过缩短旅行时间而降低了风险。当然,飞机的事故率一般不会随里程增加而线性增加,所以如果真的对一个确定旅行要比较火车和飞机的安全程度,可能要根据铁路的每人公里的死亡率乘以旅行距离后,跟飞机的每航次事故率比较,会更合适。后面会举例。笼统的比较的话,还是按每人公里比较合适

受过统计学训练以后,就知道直接这么比较就是扯淡。
在民航运量集中的发达国家,管理水平普遍较高。而铁路客运的运量以中等收入国家为主,特别是
印度的铁路周转量占全世界的比例很大(三分之一强)
,死亡率又很高。所以很大程度上民航相对铁路的低死亡率是国家管理水平的不同造成的。

换句话说,民航的运量远比铁路客运运量集中在发达国家,全球的民航安全数据好于铁路,很可能只是说明了发达国家公共交通安全水平高,未必能说明民航本身比铁路安全。

为了解决这个问题,我们可以在同一个国家内部比较(可能样本数过少,只是为了说明文章开头数据的误导性)。比如我们可以统计一下中国的民航和铁路的周转量和死亡数的数据。
先统计下2001-2014 十四年内民航和铁路分别的事故死亡人数,我根据
List of accidents and incidents involving commercial aircraft

List of rail accidents in China统计,只记入了乘客死亡:






然后根据每年的交通运输行业发展统计公报,根据旅客周转量计算死亡率:


注:此处铁路死亡人数不包含铁道边被撞的人数(这部分比例也很小)。只对比乘客死亡,因为只有乘客死亡率是对旅行者选择出行方式时有意义的。

也就是说,
在这个粗略的计算中,在中国
民航的每人公里的死亡率大概是铁路的5.3倍。不过不管怎么说,各种公共交通的死亡率肯定都远远低于私人交通的死亡率。这主要是由严格的系统监管和专业的驾驶技术决定的。如果你能接受自驾车的风险性,那么也应该能够接受民航的风险性。但如果你一定要追求最安全的旅行方式,那么起码在中国大概是铁路。

当然,各个国家情况有所区别,比如我猜测美国民航死亡率更低,但铁路死亡率可能比中国高。但起码差距绝不像本文开头的那张表表现的这样,飞机远比火车安全。

跟其他交通方式的单次旅行死亡率基本与旅行距离成正比不同,绝大部分飞机故障发生在起飞和降落过程中,即使是中途发生的故障,也往往跟飞行时间长短没多少关系。整体上,长程航班因为使用的飞机更大,公司管理更严格,事故率并不会高于短程航班。

中国民航的平均每亿人次的死亡率是13.4(根据死亡人数和2001-2014年旅客运输总数计算)。我们可以假定这个数值不随距离增长而变化。而中国铁路每亿人公里的死亡率是0.0014。我们用这13.4除以0.0014,得到9631公里,也就是说当铁路的旅行长度是9631公里时,它的死亡率跟民航一样也是亿分之13.4。那么
只要到目的地选择火车的里程大于这一数值,民航就更安全

所以如果是北京到伦敦,可能确实是飞机安全一些,当然实际上没有这么远的直达火车,如果转车的话,中间可能还要走路或搭其他交通工具,中间也有可能会经过铁路管理更落后的国家,火车的风险会进一步上升。

回复一些评论的质疑:

这个简单的实验肯定存在事故数太少的问题。如果大家硬要选05-09年比较,那么航空是0死亡,低于火车很多。近20年,我国铁路在提速,事故在高铁发展初期在增加;航空安全管理水平却在很快地变得更加严格。所以可能存在航空和铁路的安全差距在不断缩小的情况。我们可能需要更长的时间才知道究竟按照现在的技术哪一个的安全性更高,我个人倾向于铁路,但也没有依据。但如果要做健壮性检验,提前比较的起始年份,航空的劣势其实会更大。

不过我这里只是要说明
文章开头的数据肯定是有误导性的,铁路不可能安全性只有民航的12分之一。至于铁路和航空真实的安全对比,这个可能最好的办法是使用面板数据,控制国家管理水平不同的因素,可是我没有条件去搜集面板数据,还望大家见谅。

Yiqin Fu

赞同来自:

当奥巴马说“我国经济 09 年以来增长 13%”的时候,他没有告诉你其实美国人只有最富的 1% 收入增长了——剩下 99% 的人收入反而比之前
略微下降

会出现这种情况是因为收入不是正态,而是
幂律分布的(即大家常说的 “20% 拥有 80% 的财富”)。所以最富人群的收入变化对经济总量影响最大,而剩下大多数人的收入变化对总量几乎没有影响。



举个具体的例子。假设有两个人,一个人有 100 块钱,一个人有 2 块钱。如果前者财富增长 10%(来到 110 块),后者减少 50%(来到 1 块),整个经济还是增长了 8%。
举个具体的例子。假设有两个人,一个人有 100 块钱,一个人有 2 块钱。如果前者财富增长 10%(来到 110 块),后者减少 50%(来到 1 块),整个经济还是增长了 8%。

美国现在的情况就是这样,“经济整体复苏”但“多数人可支配收入没涨”。奥巴马夸自己经济政策有效确实没错,但特朗普、桑德斯也靠“拯救经济”的口号吸引了大量选民。这两个看似矛盾的事实其实都是对的。

幂律分布的数据在很多地方都会误导人。比如一家“成功” VC 的业绩其实
完全由所投公司中表现最好的一家决定。基金整体增长,只是因为投对了一家有 100 倍回报率的公司,而这家明星公司比该 VC 投的其他所有公司加起来都值钱。

--

另一种常见的“数据说谎”是调查问卷设计不合理。

英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后
引发强烈社会反响

真的是这样吗?

原来,这个 “1%” 的分母不是“有资格休假的父亲”,
而是“所有男性”。有人指出,如果这么算,即使当年所有新生父亲都选择休假,
调查得到的数字也只不过是 5%

可以从调查结果中获利的商业机构就更不可信了。
之前有新闻说,一项对 2,000 人的调查发现,16 到 25 岁女性每周花 5 小时自拍——这听起来挺科学吧?但看过真正的调查报告之后你会发现,这个“5 小时”的数据没有涵盖“从不自拍”的女性。再仔细看,你会发现
这份调查是由一家美妆电商发布的,其目的可想而知。

除了在“分母”上做手脚以外,改变调查结果的方法还有很多。例如,不给出“其他”或“不知道”这类选项,问题题干加入误导性语言,调查对象有针对性选择等等。

一个很有意思的例子是,如果在问题中提到“奥巴马”(民主党执政八年的总统),更少的民主党人会说贫富差距过去八年变大了,而更多的共和党人会说过去八年经济变差了。简单地在题干中加上一个人名就改变了调查的结果。







要说离我们更近的例子,可以参考
要说离我们更近的例子,可以参考
我之前写的这个回答——为什么一家民调说 59% 的台湾民众认为自己“只是台湾人,不是中国人”,而另一家却说 57% 有“泛中国认同”?

--

我想说的第三种“数据说谎”是暗示因果关系。

2015 年开始,英国卫生大臣亨特频繁引用
《英国医学会期刊》的一项研究,说周日住院的病人比周三住院的病人死亡率高 15%,每年英国有
6,000 到 11,000 人因为医院周末人手不足而死亡。

这听起来既科学、又可怕,对吧?

但问题在这里:虽然确有此研究,虽然这个 15% 的数字也是准确的,可这并不代表死亡率高就一定是因为医院周末人手不足。有没有可能周末住院的病人本身病情就比周中住院的重呢?(英国很多人平时可以请带薪病假。)在控制病人病情等其他因素之前,我们无法确定周日住院的死亡率高就一定是因为医院人手少。

卫生大臣亨特暗示这个因果关系也有他自己的原因——他所在的保守党竞选时承诺会增加公立医院周末员工数量,但因为保守党同时也削减了公共医疗开支(他们承诺会削减政府开支),所以必须要求年轻医生工作更长时间、照顾更多病人且不领加班费。由此一来年轻医生非常不满,亨特和他所在的保守党便希望通过这些数据来增加舆论对医生的压力。

另一个类似的问题是同工不同酬。你可以经常在奥巴马、希拉里的演讲中听到“做同样的工作,女性工资是男性 77%”这个数字。但是,“同工不同酬”引用的美国劳动统计部
报告第一页就写明他们“没有控制很多可能显著影响男女工资差异的因素”,比如工作时长,受教育程度,效率等。事实上,美国同种工作内的性别工资差异并不是因为雇主歧视,详细原因请看这里:
「男女同工不同酬」是事实,为什么公司不全部招聘女性,以获得同等的生产力并节约成本? - Yiqin Fu 的回答

--

政治新闻看多了,各类“误导”方法很容易就积累一打:

GDP 数字漂亮的时候强调 GDP,通货膨胀数字好看的时候强调通货膨胀。夸自己就说“失业率低”,批评对手就说“失业率低只是因为很多人都不找工作了,所以没算在经济活动人口里面”。

绝对数字漂亮的时候强调绝对数字,百分比好看的时候强调百分比。希望增长的数字和去年相比有下降,那就和过去五年相比。希望下降的数字还在不停增长,那就说
“增长率下降”


某地商品房连续四年的均价分别为 1 万、2 万、3.8 万、7 万。看到这组数据,你必定会大叫:天哪,房价真是涨得越来越厉害了!不过事实却恰恰相反:这四年的房价增长率竟在逐年降低。


不过也不仅是政客。只要是做 PPT 的行业,大家这种事都干过不少吧。

--

最后一类“数据说谎”我都不太好意思放在这里。如果前面只是误导的话,下面就是赤裸裸的谎言了。

例如特朗普转发的这张图片,信息来源“旧金山犯罪统计局”
根本不存在,数据也每个都是错的。(但居然在他转发九小时后就有 5,800 个赞和 7,700 次转发!)



所以再一次提醒大家:
所以再一次提醒大家:

不是只要带图带数字的就是真相!请仔细核查信息来源!不谈解读,很多数据本身就是错的。

最后送上一个饼图:




其他数据话题下的回答:


为什么有时候我们以为有很多人追的女生实际上不仅单身还没人追?

如果「男女同工不同酬」是事实,为什么公司不全部招聘女性,以获得同等的生产力并节约成本?

恋人的性格互补好,还是相同好?

--

Ask me anything:
Yiqin Fu 的值乎 - 说点儿有用的

田吉顺

赞同来自:

你一定听说过“酸男辣女”的说法,就是妈妈爱吃酸就生男孩,爱吃辣就生女孩。当然,大多数人把这个当做玩笑话——如果妈妈爱吃酸辣土豆丝难道就要生个不男不女的了?
但是,你觉得妈妈的饮食情况会影响到孩子的性别吗?
2008年,在权威杂志《英国皇家学会学报》上发表了一篇文章:《You are what your mother eats: evidence for maternal preconception diet influencing foetal sex in humans》。研究人员就打算回答上面的问题。他们通过对740名女性进行分组研究,考察她们孕前、早孕期、中晚孕期的饮食情况对于胎儿性别的影响。研究人员对133种食物进行问卷调查研究,结果发现,怀孕前早饭吃更多燕麦的女性,更容易生男孩!而除了燕麦,调查的其他食物都和男女性别没有明显关联。
这篇文章一发表,马上引起广泛关注,Google点击超过50000。要知道,这可是一篇纯学术文献,也可以有如此之高的点击量!
如此高的关注度,自然逃不过学术界的质疑。2009年,同样在《英国皇家学会学报》上,一篇针锋相对的质疑文章发表出来:《Cereal-induced gender selection? Most likely a multiple testing false positive》。提出质疑的,是三位统计学家:Stanley Young,Heejung Bang和Kutluk Oktay。他们撇开实验设计中的数据获取的问题,比如回忆偏倚、测量误差、精确测量的困难性等等,直接针对前一篇文章的统计学方法提出质疑。他们在对前一篇文章中提供的原始数据进行重新统计之后发现,那些数据其实全部没有相关性,而所得出的“吃燕麦生男孩”的结论,其实只是一个偶然事件。
也就是说,之前研究的那133种食物,对于生男生女的影响都是随机分布的;但是在那一次研究的时候,恰好发现那一批研究对象吃了燕麦更容易生男孩,这纯粹属于偶然事件。那篇文章把一个偶然事件当做结论报道出来了。

但是,做实验和统计分析,不就是为了尽可能的避免偶然因素的影响,来找到实际的关联性吗?那为什么在统计了这么多样本量和分析了这么多因素之后,竟然最终还是找出个偶然事件呢?

问题就在统计方法上。2008年那篇文章的统计方法用的还是p值,但是,Stanley Young他们指出,在做多重检验(multiple testing)的时候,使用p值是不正确的,而应该用校正后的p值(ajusted p-value),也就是要考察一个错误发现率(False Discovery Rate,FDR)。
这到底是怎么回事呢?
如果从统计学角度,原假设、备择假设、一类错误、二类错误的可能比较复杂,我尽量用最简单的话解释一下基本思想。

我们做的每一个判断都是有可能出错的,但是,我们希望经过我们的努力,使我们的判断出错的概率尽可能小。就是说我们允许自己犯错,但是不能太离谱,老是犯错就不对了。
我们在做统计研究的时候也一样,也是有一定的“容错率”的,比如说1%。也就是我们做这项研究,按照这样的统计方法得出的结论,虽然有可能是错误的,但是错误的机会不超过1%。这种小概率事件在一次试验中实际发生的机会其实微乎其微,于是我们认为结果是可信的。
但是,当我们研究的因素多起来,对这些因素同时进行统计分析的时候,本来一个因素1%的出错机会就被放大了。比如每个因素有1%的出错可能,当我们的研究因素增加到100个,那么就会存在一个结果是100%错误的。就好像如果一个疾病的发病率是1%,那么在100个人当中,就会有一个是患病者。
本来的小概率,当遇上更大的基数时,小概率事件就发生了!所以,就出现了上面提到的,虽然那133种食物的影响其实都是随机的,但是当对他们进行研究时,竟然出现了一个“有意义”的结论。
这样一来,本来只是一个很小的犯错几率,结果因为分析因素的增多,竟然真的出现了错误!

因此,在1995年,Benjamini和Hochberg提出在多重检验时要考察FDR的概念,就是要限制这个被增大的错误机会。而当把FDR控制在一个可以接受的范围内时,再对2008年那篇文献的原始数据进行统计,就会发现那133种食物对于胎儿性别其实都没有特异性的影响。

目前,FDR的概念被用于高通量的基因相关研究。因为基因片段实在太多了,量级可能不仅是几百几千,甚至上万,这时候如果继续使用p值检验,那么就会错得离谱。但是,试验在定FDR时,也不是越低越好,因为过低的话,可能本来有意义的结果,也因为过低的FDR而显示无意义了。所以,FDR的确定,应该在一个平衡点,因此当我们考察FDR的时候,可能就有某个因素其实已经出错了,只不过这个错误的数量尚在可接受范围内。
这让我想到前些天,因为Angelina Jolie继乳房切除后又切除双侧卵巢输卵管,让有些人感觉依靠基因治疗癌症预防癌症好像指日可待。而且,很多科幻电影上,也不乏通过基因测定或者改造来判断和影响人体某些特性,或者治疗疾病。
确实,基因的发现对于生物医学来说,可谓意义重大;当科技领域的进步让人充满期待的时候,基因的出现让生物医学不至于太过寒碜。但是,作为医生我得说,我们可以期待科技领域的“日新月异”,但是在临床医学上,最好还是保守一些。基因确实对医学有帮助,但研究的同时,即使改进统计方法,也会带来实际出错的机会。而在生命和健康这么一个特殊的领域,我们的容错率是很低的。即使是实验室研究已经获得了令人欣喜的结果,在临床医学领域,我们还是要老老实实的设计严格的临床试验去验证,而
很多时候,医学上的验证是需要时间的。
这还让我想到大数据。现在是一个逢人必说大数据的时代,而且大数据确实给我们的观念带来巨大的冲击。但是,大数据不牛逼,分析数据获得信息才更重要。因为有瑕疵的分析方法,就有可能会得出前面提到的“吃燕麦生男孩”的结论。如果这样的分析结果用在投资上,大不了就是一次投资决策失败,最多某人破产,他还尚有东山再起的机会。而如果这样的问题出现在医学领域,那么受影响的恐怕就是健康和生命,结局的可逆性就没有那么好了。

1988年,Russell Ackoff提出了DIKW金字塔。这个金字塔的最底层是数据,而塔尖则是智慧。在从数据通往智慧的路上,是信息和知识。所以,我们这个世界上不缺乏数据,缺乏的是通过合适的方法从数据中获取信息,进而从信息中提炼知识,上升到智慧的能力。




其实数据不会说谎,它们只是一些毫无意义的数字而已;但是当你对这些数字进行解读,从获取到分析,这个过程就可能出现问题,即使你的每个步骤都是合乎逻辑的。在医学上,这就是
医学的不确定性带来的。
而且,医学还有它的特殊性。医学解决问题都是滞后的,一定是先出现疾病,然后我们才能认识到它,再去想办法去解决它。我们不会去预测新的疾病。当你已经知道事情的结局,企图对这个结局进行解释的时候,总是难免会不自觉的带入自己的偏见。而我们每个人都更容易发现别人的偏见,对别人的解释倾向于怀疑。这时候,数据就出现了。因为数据是最客观的东西,于是它就变成了最好的
说服别人的方法。所以有时候我们分析数据的目的,可能还不是为了解释现象获取信息,其实仅仅是为了说服别人或者说服自己。
所以,当把大数据引入医学的时候,更应该时刻保持警惕。大数据分析的时候,可能出现问题的地方远不止前面提到的FDR,还有很多,这就需要我们对结论时刻保持怀疑,并且留出足够长的验证时间。

刘颖博

赞同来自:

听过这么一个“故事”:

台湾科学家做了个有趣的实验,他们让台湾和大陆的小朋友抄写“忧郁的台湾乌龟”100遍,经过观察他们发现台湾小朋友抄了十几遍后就不耐烦了, 而大陆小朋友每次都能坚持抄完,科学家由此断定大陆小朋友缺乏反抗精神。对此结论我一直很怀疑,直到看到一份台湾小朋友抄写的作业:憂鬱的臺灣烏龜……

陈义

赞同来自:

说到数据会说谎,最有欺骗性的的例子莫过于统计学中著名的辛普森悖论(
http://en.wikipedia.org/wiki/Simpson's_paradox)了。

看看来自斯坦福讲义里的一个简单例子(
http://plato.stanford.edu/entries/paradox-simpson/#Causation)。某大学历史系和地理系招生,共有13男13女报名。

Men Women
History 1/5 < 2/8
Geography 6/8 < 4/5
University 7/13 > 6/13

历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:

1)整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。

2)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。

niaocu

赞同来自:






世界上有三种谎言:谎言、十足的谎言、和统计数字(There are three kinds of lies: lies, damned lies, and statistics)。——马克·吐温


以下例子来自我写在自己博客上的一个案例——


壞球同學:你統計學这么好,你老師知道嗎

环球时报旗下专业从事舆情调查与监测的研究咨询机构——环球舆情中心27日发布一份调查报告称:在安倍参拜靖国神社后,有74.6%受访者倾向对日本强硬反制(
环球舆情调查:74.6%受访者倾向对日本强硬反制)。这份调查被其它媒体(如中国经济网,网易新闻)转述时,标题变为“7成中国人倾向对日强硬”。改写标题的其他媒体的小编,你们要么是存心扭曲,要么就是统计学没学好。

我们先来看看环球时报报道的原文:


本次调查所选取的7个城市分别是北京、上海、广州、成都、西安、长沙、沈阳。调查时间为27日14时至17时,共回收有效问卷1077份。本次调查采用在线会员库随机抽样的调查方式进行数据收集,所有样本均通过在线调查会员库随机抽取,受访者自愿填答问卷。所有受访对象为18岁以上普通民众。本次调查为简单随机抽样,在95%的置信度下,样本的允许抽样误差为3.0%。


然后再补充一下统计学的基础知识(上过统计学课的同学可以跳过这部分)。统计学分为
描述统计(descriptive statistics)和
推断统计(inferential statistics)。前者是对数据的整理、归纳和展示,后者是在描述
样本的基础上,将其结论推及
总体

描述统计是推断统计的基础,推断统计是描述统计的提高。如果只停留在描述统计,从样本(sample,总体的一部分)数据得到的结论只能就这个样本而言,而不能推广到其它个体,换句话说,如果想知道其它个体的信息,就必须重新收集和整理数据。

推断统计的作用,就是让仅凭一个样本做出的结论,也能推广应用到整个总体,而无需收集全部个体的数据。但必须提到的一点是,只有采用
概率(随机)抽样(probability sampling
调查方式得到的样本,其结论才能推及总体,
非概率抽样(non-probability sampling)得到的样本则不行。

回到环球时报发布这篇报道的标题“有74.6%受访者倾向对日强硬反制”,你会发现,环球时报的报道比较谦虚(心虚?)的:只停留在就样本论样本的层次——确实他们调查了一些人,这些人的数据也的确提供了这样的结果,结论也仅适用于他们调查的这些人。

但其它媒体的转述就不同,它们将样本的结论推广到整个总体——“全体中国人”,这就是问题所在。推断统计过程中,把从样本得到的结论推广到总体,还需要满足一些条件,回答一些问题(见附录2“相信某个抽样调查结果前该问的问题”)。

其中最重要的一点是:调查有否采用
随机抽样(random sampling)。从文章中,我们的确找到了“随机”二字,而且不止一处提及。不过且慢,接着看下去就会发现文章后面提到“
受访者自愿填答问卷”,玄机就在这里,这个调查的价值至此明了——
该调查结论仅限于它所收集数据的样本,而不能推广到总体,因为这是一个有偏的
自愿回应样本(voluntary response sample,见附录1名词解释)

环球舆情调查中心和环球时报的结论发布者,一看就是学过统计学的,他们羞羞答答地把这唯一的“自愿填答”藏在一堆“随机抽样”字眼中,同时还像模像样地提供了“95%置信度”和“3.0%的允许抽样误差”,即使这样做已经毫无意义。

而网易新闻、中国经济网的小编们,一看就是没修过统计学原理这门课的,或者上统计学课没好好听的,一下子就跳进了前者布下的陷阱,把
非概率抽样方式得到的结论,应用到整个总体:坏球同学不敢推出的结论,却给你们给引申出来了。

坏球舆情调查中心和坏球时报,你们真的很坏!不带这样欺负没学过统计学的同学的。David S. Moore在《统计学的世界》里提到:有许多抽样调查不能提供准确地和有用的结果,特别是那些设计来影响、而不是记录公众意见的 (especially
those designed to influence public opinion rather than just record it),说的就是你报吧?


~~~~统计学常识分割线~~~


附录1:名词解释【自愿回应抽样 voluntary response sampling】

指的是通过来电来信(write-in, call-in,在网络时代还包括click-in)方法收集而来的民情民意。这样的样本往往加入了被取样者的好恶,从而得到与真实的客观情况相差甚远的“
有偏(biased)”——注定偏向某个答案的样本。

David S. Moore在《统计学的世界》里面举了一个“自愿回应抽样”例子:专栏作家Ann Landers在报纸上呼吁其读者就“假如能够重来,您愿意再要小孩吗?”进行投票。在收到的来信回应中,70%的答案是“No!”,有些来信还附带了催人泪下的故事,讲述父母如何含辛茹苦、子女如何背信弃义。

真的有70%的父母后悔生了小孩?相信您也不会认同。这个抽样结果之所以有偏,就是因为采用来信来电的抽样方法,使得一些对某个问题
具有强烈看法的读者——这种强烈看法往往是
负面情绪居多——会不厌其烦地站出来发表自己的见解和感受,从而构成样本的主体。

据估计,这些人在人群中估计占到15%的比例。从而受电台、电视台、报纸等媒体的呼吁而感召的,经常就是这类人。而那些对问题看法中立或者具有正面意见的人(比如愿意再要小孩、或对此无所谓的父母),虽然人数往往更多,他们就不太会站出来回应,只会乐享天伦、充当沉默的大多数。

因此,自愿回应抽样方法得到的结果会发现“70%”的父母不愿意再要小孩。在该样本中,带负面意见的父母被过分代表了。

~~~~~~~~~


附录2:相信某个抽样调查结果前该问的问题 Questions to ask before you believe a poll



若调查者使用好的统计技巧,准备一个尽可能完整的抽样框,注意提问的措辞,减少无回应,则抽样调查确实能能提供准确和有价值的信息。但亦存在许多抽样调查不能提供准确地和有用的结果 (especially those designed to influence public opinion rather than just record it)。为此,在你更多关注某个抽样调查结果之前,有必要先问几个问题 :


  1. 谁做的调查(Who carried out the survey)?——遵从良好调查习惯的专业抽样机构更值得信赖。
  2. 总体是什么(What was the population)?——想反映何人意见。
  3. 样本如何选择(How was the sample selected)?——有否提及随机抽样。
  4. 采用多大的样本(How large was the sample)? ——好能提供误差界限与置信度。
  5. 回应率多高(What was the response rate)?——无回应(no response)同样能带来有偏。
  6. 如何与被调查个体进行接触(How were the subjects/units contacted)?——不同的联系方式(面对面、电话访谈等)影响到回应率、回答的真实性、调查的成本。
  7. 有否受突发事件影响(Was it just after some event which might have influenced opinion)?——是否在某件会影响民意的事发生之后就进行调查?
  8. 提问的具体措辞(What were the exact questions asked)?——比如采用诱导性的“加料问题(loaded question)"

许多民意调查、学术调研、政府负责统计官员在宣布抽样调查结果时,会回答这些问题。但新闻编辑和播音员却有一种坏习惯,省略这些“无趣的真实(dull facts)”,而只报道抽样的结论。更有一些有利益集团、新闻媒体由于本身采用了不可靠的抽样方法,所以根本就不能回答上述问题。严谨的抽样调查如盖洛普(具体例子请到
http://www.gallup.com/home.aspx查找)会告诉我们真相:“除了抽样误差外,问题的措辞以及执行调查时遇到的实际困难,会导致调查结果有偏或产生其它误差”。
若某政治家、广告人、或某个媒体宣称某个民意调查结果却没有提供完整的信息,要当心


—— 资料来源:David S. Moore,《统计学的世界》

~~~~~~~~~~~~


附录3: 统计金句买一送二

数字不会说谎,但说谎的人会想出办法。——Charles Grosvenor

统计数据就像比基尼,暴露出来的部分固然重要,但没暴露的部分更加重要。——佚名




该问题目前已经被锁定, 无法添加新回复