Professional Documents
Culture Documents
还在 持 天阅读 习 吗?
那~
与我成为书友吗?
国 外当下流行书籍
各图书销量排行 书籍
量工具书籍
我们受 终 书籍
……
海量 版、纸质版书籍及 程
还有贴心 “ 习管 ” 务哦!
微 :shuyou099
图书在版 目(CIP)数据
书名原文:Naked Statistics
ISBN 978-7-5086-4215-4
Copyright © 2013 by Charles Wheelam
All rights reserved including the rights of reproduction in whole or in part in any
form.
本书仅限中国 陆地区发行销售
裸裸 计
著 :[ ] 尔斯· 伦
:曹
出版发行:中 出版集团股份有限公司
字数:240千字
版次:2013年11月第1版
书号:ISBN 978-7-5086-4215-4/F·3002
价:42.00
版权所有· 权必究
务 :010-84849555 务传真:010-84849000
稿邮箱:author@citicpub.com
中 出版社官 : http://www.publish.citic.com/
官方微博: http://weibo.com/citicpub
裸裸 计
[ ] 尔斯· 伦 著
中 出版社
引言 我为什么憎恶微积分却偏爱统计学?
我天 就很排斥数 。我对数字本 没有任何 ,对那些在现实世
—“ 功了,这些题目看上去就会 得 。”这一点确实很有
,所以我只得溜回座位。几分钟以后,我们 这门 “尖
人 历褪色丝 。)
师当 就是这样把 们教给我 。
也正是因为这一点,我与 计 了 (本书所 计 包
发 些 因 ,比 和心 ; 计 还 帮助我们在
化 中 作弊行为; 计 至 帮助 在 游戏节目中获
。在我 童时代有一 常出名 节目,叫作《让我们作个交
打开剩下 两 门中 一 , 打开 这 门后 站着 永远是一 山
。举个 , 设选 选择了1号门,那么蒙提会先打开3号门,
之 决 (在这个 中就是把1号门改为2号门)。 要注 是,
答 是 。为什么呢?本书之后 会 出 释。
计 就在于,从 比赛 击 成功 国 选
这是一本有关直觉 书。书中很少出现计算、公式和图表;当 们
地下室里 数 —真 一点 都不 张。
示这个算式还将无限地 下去。
英尺 离了。
与 之间 离。出于计算 目 , 所 程 长度可以简单
地估算为两英尺,但数 会 1+1/2+1/4+1/8……最终收敛于2,这也
是那天老师 要教给我们 。
和数据 人 量 兴 人都 上 计 。
吐 “云 ”之中)。那么,我会进一步推断是 小 引发了
。我举 这个 当 十分荒 ,但现实 活中有 计 在
过 之后,也产 了类似荒 效 。
费数据, 断 是否会错过还 限 ( 笑, 们真 得 )?
目录
第1章 统计学是大数据时代最炙手可热的学问
第2章 描述统计学
第3章 统计数字会撒谎
第4章 相关性与相关系数
第5章 概率与期望值
第6章 蒙提·霍尔悖论
第7章 黑天鹅事件
第8章 数据与偏见
第9章 中心极限定理
第10章 统计推断与假设检验
第11章 民意测验与误差幅度
第12章 回归分析与线性关系
第13章 致命的回归错误
第14章 项目评估与“反现实”
基尼 数是否是衡量社会分配公平程度最 ? 站是 何
知道 喜欢 影类 ?祈祷真 让 人 后康 改善吗?
是什么导致自闭 发 一直 ?哪些人最有可 成为 怖分 ?
我注 一个有 现 。 们在 上常常 怨 计 程有 么
和无关 要;可一离开教室,他们又会在午饭时开心地讨 位
星 击 成功 ( 天) 数( 天),又 彼此成绩 平
分数(永 话题)。他们会 出 国 业 (NFL)采 “传
卫 表现更加方 了。
方式 描述那场比赛,包 长篇 牍 分 和令人眼花 乱 原 数
题 作 ?是 ,但这同时也反映了描述 计 优 和 。仅 一
坏;不知道他是否传出了一个漂亮 过人 却被 蠢 队友错过了,导
令人 奇 是,同样一 人,在 体 、天 成绩 时 提 数据
人为计算和比较单位,也可以以 庭为单位。所有这些数据都是
基尼 数越接近于1,那么这个国 财 分配就越不公平。根据 国中
局提 数据(顺 一句,这可是一个巨 数据收集 ),
国 基尼 数为0.45。那又怎么样?
将这一数字放 实际 中,我们就可以得 息。 ,瑞
典 基尼 数为0.23,加 为0.32,中国为0.42,巴西为0.54,南
[1]
为0.65。 观这些数字,我们 觉 国在收 公平分配方
相对落后, 比 国 都要 糕。我们同样可以对不同时 收
分配 公平 进行比较,1997年 国 基尼 数为0.41,但在接下
10年 ,基尼 数就上升 了0.45(最近一次 自 国中 局 数据
是在2007年),这就客观地告诉我们在这10年 时间里, 国虽 变得
国 在这一时 基尼 数 变化 ,加 在过去10年中 收 分
配 基本上 持不变;瑞典 济虽 在过去20年 时间里得 了长
瑞典不但变得更为 裕,其社会也变得更加公平。
基尼 数是否就是社会分配公平程度最 衡量 呢?绝对不是,
正 传 效绩 数也不是衡量四分卫比赛表现 一样。不过,
基尼 数确实以一种 捷易 形式为我们提 了一个重要社会现
一些宝贵 息。
窗 ,比 基尼 数。
将会成为“性 业”。对此我不得不承 , 济 有 时
干 问题:
我们 何确 那些在 中作弊 ?
飞(Netflix)是 何知道 喜欢 影类 ?
既 不 对人体进行 发 ,那我们 何才 得知哪些 质
为会 发 ?
祈祷真 让 人 改善吗?
是什么推 了自闭 发 ?
计 帮助我们回答这些问题(至少也会加快我们 决这些问题
步伐)。这个世 正在 造出越 越 数据, 且速度越 越快。但
是在寻找被低估 运动员,还是在更公平地分配教师工资 问题
描述性数据——击 与 分
运动员米奇· 底有 ?他 击 达0.298。对于一个 迷
A,那么就可以获得4点,B是3点,C是2点,以此类推。当 中毕业 申
易, 且对不同 进行比较也很 易。
优 吗?我以 所在 中就 图 决这一问题, 比
本都是在 里度过 。
很 吧?但本书 主题之一就是,对于描述 计 过分 会带
导性 导致不良行为。上一句话我原先 短 是“过分简化
描述 计 ”,可后 我把“过分简化”给 掉了,因为这个形
些 和细节,任何一个数字工作 对此都要心知 明。
样数据 决 问题
具 运 予以 答(虽 答 并 那么 )。 计 一个核心功
就是 中已有 数据进行合 推测,以回答那些我们还未掌握所有
对“未知世 ”进行推断。
也是 样 一种形式。由一 数量 庭组成 样本 代表
两 基本 持一致。
、 险与 作弊
场当 不会亏钱),不管场 钟 和口哨 有 闹, 赌客 里
赌注积 得有 ,赌场永远都是最终 。
祸、火灾等不良事件后提 护。 险公司并不是通过消除这些不良
事件 挣钱,因为 祸和火灾 天都会发 , 至汽 有可 会一下
撞进房 里引起火灾。 险公司收取 额 费, 于支付 祸、火灾
一样 , 错 答 一样,那么他们就有可 是相互 袭(
通过短 息分享答 )。此外,还有几种 会引起该公司 注 ,比
在一场 中, 在 题上 正确 于 易 题(这 味着
师 人员在 束后对答题卡动了 )。
当 , 也不 看出 也有其局限性。一 在 道题上出现相
同 错 答 有可 是巧合,事实上, 参与 估
越 ,我们就越有可 为这类 实属巧合。并不是 我们一旦在
计时发现异常 ,就 上 存在作弊现 。 自亚特兰 德
哪些人最有可 成为 怖分 ?
对 。 我们 设是吸 发 ,那么就不 随 两组
毕业 ,将其分为吸 组和不吸 组, 后在年后 同 会上打听
得了 —这是不道德 。( 我们 设是 种新研 药品
违 伦 实 。 观 吸 所带 影响?很简单, 过这套令人
最终 得 有 义 。就 那些让人印 深刻 类
, 《 现场 : 约篇》, 中展现有 探和取证专
根 维, 后再根据这些证据顺藤摸 地 住 残 。这部 最吸
引人 地方就在于,里 专 们并不是通过那些常 证据, 目击
证人、 控录 等 坏人 , 是 助了科技 。 计 基本上也
发 要比不吃 人低9%);(2)量化吃 和 肠 发
下降之间 关 只是巧合 ( 真 成立,则否 了上述关于饮
食和 康之间关 发现,这对于该实 无 是一个逆 )。
色短裙,所以速度稍微受 影响。 了 友
—一个 材 硕、 肤晒得 帅哥,对于一个 要在地下实 室里
天工作14个小时 人 ,他是怎么 此 康 呢?这名研究人
员把 计 给 友看,他 捋了捋下巴上修剪得整整
山 ,从 屉里 出一把格洛 18 自动 ,插 位于腋下
套里, 了 上价 5000 波 西装(我又忍不住 问一句,
程度也不低。这位普 斯顿 济 阿兰· 格
道:“ 怖分 通常 自受过良 教 中产阶级 收 庭。”
计数字 后 与真相
即 是在最 下, 计分 也很少告诉我们“真相”。我们通
常所 ,只是 并不 数据 就事 事,因此,我们 会看
有一些态度严 不同 些 计 推 , 最为基本
就是对 要 答 问题本 产 质 。体 们对于 是“史上
最 运动员”这一问题似乎永远都达不成共 ,因为对于“最
”二字从 就没有一个客观 义。令人眼花 乱 描述性数据可以
从 些 度对这个问题进行回答,但 是无法给出一个令所有人都
行 量 控 实 , 要成功也不是一件 易 事, 且哪 那么
资金?针对我们之 所提出 那个有关祈祷是否 少 后并发 问
题,研究人员专门对此进行了 分 ,在这个过程中 费了
整整24万 (至于 何,请 心读 第13章就知道了)。
息, 明又 实 人 常有不同 看法。
是什么?
量 数据。
出正确 决 。
回答重要 社会问题。
……
作弊 ,让作 受 法律 审 。
45。
看 比击 更有价 描述性数据。史蒂夫·莫 是一 为客 提
量原 数据 息 决方 公司 老 ,之 我与他通了 话,
特地向他咨 了几个问题:(1)哪些是 价 天才最重要 数据?
(2) 是史上最伟 ?在介 景之后,我会向 公布莫
答 。
年) 人 收 ,观 其变化趋 。人 收 是一个简单 平 数:
收 除以人口数,这样得出 就是 国 人 年收 从1980年
7787 上升 2010年 26487 。 看,真是一个 得庆祝 成就!
2010年。正 “占领华尔街”运动 示 所 出 , 于收 排行
顶端 那1% 人,他们收 炸性 长 显著地 动人 收 水平
整体提升,但同时不 要往剩下 那99% 人 口袋里 放一分钱。也
与之 有关 问题一样,这次我又请教了专 ,咨 我们应该 何
看待 国中产阶级 济问题。我找 了两位知名 劳动 济专 ,其
体 ,这样才 更 地 专 观点。
其实相当于什么都没有告诉我们。这就是让人觉得讽刺 地方: 常是
数据越 ,事实越 糊。因此,我们 要简化,将一 杂 数据序
少为几个 起 描述作 数字,正 运会体操比赛中,我们
临被滥 危险。描述性数据就 是在 交友 站上 :虽
一 都是 确 ,但同时也相当具有 导性。
设 在上 ,此刻正无所事事地浏览 站,无 间 浏览了一篇报
文件中都会记录下这台打印 修 质量问题和返修次数);另一
份文件记录了公司最主要 竞争对 在 一年售出 994773台激光打印
修 息。老板 让 对两 公司 打印 质量作一个对比。
平 质量问题数。
设竞争对 售出 打印 在 修 平 台反 质量问题数为2.8
个, 公司所售打印 平 质量问题数为9.1个,这样 直白了
吧?通过计算,两 公司共计100 万台打印 息就被 提 浓 为
了 让 更 地 ,我 举个 ,在西雅图 一 中 酒吧
吧台 ,坐着10个人,他们 年 平 收 都是3.5万 ,也就是 ,
这组人 人 年收 为3.5万 。这时 ,比尔·盖茨 进了这 酒
必须对“异常 ”有 敏 性,这也是为什么我们不应该 人 收
衡量 国中产阶级 济 康 。因为在收 分配 顶端,有着
一 收 暴涨 国人—公司 管、对冲基金 ,以及 德瑞 ·基
字一分为二,1/2位于中位数之 ,另外1/2位于中位数之后( 遇上
一组数字 数量为偶数,那么中位数就是中间两个数 平 )。回
刚刚酒吧 那个 ,原先坐在吧台 10个人 年 收 中位数为3.5
这 打印 中出现相应数量质量问题 打印 占 数 百分比,即Y 上
数, ,在 修 ,36% 打印 出现过两次质量问题。这一数
据分布涵盖了所有可 出现 质量问题 数量,包 零故 ,因此所有
图2-1 对手公司打印机质量问题频数分布
由于上图 数据分布 基本上是对称 ,因此平 数和中位数两 相
对接近。坐 右边还有一小部分故 数量较 打印 ,这些异常
将会 平 数,但是对中位数没有影响。 在 将质量 计
对 公司。此时,由于卡 活已 开 变得 乏味, 且
也深深地被 刚才 发现所吸引,于是 忍不住为自己公司 质量问
题 了一张 数分布图。
图2-2 你所在公司打印机质量问题频数分布
从图中可以清 地看 , 所在公司 产品并不存在一个普遍 质量问
人。
人应该在 习方 辅导 。 没必要知道任何有关
本 ,以及 在 中答对了 少道题目。一个以百分位
数显示 成绩就已 告诉 , 得分在所有 中 排名。
题目比较简单,那么 数 都会获得一个 分,
答对 题目数量还是少于其他同 ; 题目特 ,那么所有
绝对分数并没有太 义。
优于 州 部分 同 人。 他 于第8百分位数 位 ,那么他真
要加点 油了。在这个 中,百分位数(相对分数)比答对题目 数
量(绝对分数)要更有 义。
座 6岁小 体重 低。
话。
这又是什么?
我们有一种 刻度测量 觉。
在小 四年级 时 就已 会 何计算百分比了,所以
过接下 几 文字,我表示 ,但在此之 ,请帮我 一道简
单 练习题。 设 百货商场正在出售一 连衣裙,售价为 100
得税税 上 升 了 67% , 我 们 可 以 刚刚 会 公式 证 一 下 , ( 5-
3)/3=2/3,即67%。
样,确确实实上涨了67%。
得分,但 常 , 杰斯 长传 让他 队友得以突破对方 员 防
守、在场上 得更远。这两位四分卫 表现更 ?在第1章中,我介
了 国 业 采 “传 效绩 数” 决这一 计 题,
们可以因此对原先无法展开简单比较 事 进行排名,从四分卫 表现
优 ,再 选 比赛。在 国小 选 比赛中,所有 出
同时,将一 杂 息浓 成一个数字,这也是所有 数 点所
在。我们有各种各样 方式 浓 息, 种方式都有可 导致一个不
重上 25%,那么莲花 特斯 将会是第一名。
新 “ 之 ”。
里 组成 发 变化 话,最终 排名也会不一样,但可以
是,只要是符合常 整,无 何都不会出现津巴布 越挪
价 数据(除了年 )是:
(这一点是不包含在击 计算 )。
3.打数(AB), 成上 和长打 比较 景。 技不 员
级 员。
是 员 以撼动 涯 录。
那么, 国中产阶级 济 康 又是 何呢?我再一次将问题抛给
(研究 怖分 普 斯顿 济 、 国 巴 级 济
顾问)发送了一封邮件,他们基本上给出了相同 答 ,只有一些细节
膨胀 整后 )工资中位数在过去几十年中 变化,他们还建议我
一下 于第25百分位数和第75百分位数人 工资变化,因为这两拨人
个工人找了一份兼 , 加 很 个小时,那么这个人 收 会
,但工资却没有发 变化。这就 明,即 一个人 工资下降,他
钱也就越 。
级工人和10%最 裕人 工资 长水平。
图2-4 不同收入群体的周薪变化
资料 源:《1979~2009年 国工人时薪分配变化》, 国国会 算办公室,2011年2月16日。图
中具体数据参见
http://www.cbo.gov/sites/default/.les/cbo.les/ftpdocs/120xx/doc12051/02-16-
wagedispersion.pdf
从这些数据中,我们可以得出有关中产阶级 济 各种 ,但都
本章补充知识点
表2-1 打印机质量问题统计表
方差和 差 运算公式
方差和 差是测量和描述数据分布 离散 最常 计 技
巧。方差通常 符号σ2表示,体现各个数 离 们 平
离远近。但要注 是,在计算时 要对具体数 和平 之差进
举 明:
μ。
2 2 2 2
们 方差σ =[(x 1 -μ) +(x 2 -μ) +(x 3 -μ) +
2
……+(x n -μ) ]/n。
由于在计算方差时对 个数 和平 之差都进行了平方,因此那
些远离平 数 即异常 就会被放 ,下 以 为 。
表2-2 身高统计
*与平 之差 绝对 表示两个数 之间 离,不 虑方向(正
)因 ,因此绝对 是为正。这里 绝对 表示 是 个人
与平 之间相差 英寸数。
两组 平 都是70英寸, 一组 个体与平 差异
方差计算公式中 分 变 。
差就是方差 平方根,计算公式 下:
μ。
们 差
[1] 吧台 一共有12个人,那么中位数应该是收 排在第六位和第七位 两个人 平 , 这
得我们 工资水平涨了吗?
对于任何一个约会过 人 ,通常会对“他这人还不错”这类表述引
起 ,不是因为这句描述一 是错 , 是因为这句话中还有其他
潜台 ,诸 其实这个人曾 坐过 , 他 离 “还没 办
数据 支持真 存 不成立 。
确方向。一个数据 确与否表明了其与真相是否一致,因此将“精
,那么再精确也 无 义。
上就会显示我应该击 精确 离。相比起原 码数 记 ,
后 干, 洞 ,因此我 “ ”击 就会导致“ ”
—在空中划出一道漂亮 弧 , 后越过整个 场落 里。这
常 。这一点适 于所有 计分 。
险管 都 常精确,“ 险 ” 念让这些公司得以将其在
不同 下可 损 资产进行精确量化,但问题是,这些 级 杂
怀 其真实性。但嵌 这些 中 有关 市场可 会发 险
设其实是错 ,因 精确计算所得出 从根本上 就是不 确
造业正在 去 量 工作 会,这些工作岗位源源不断地流向中
国、印度以及其他低工资国 。人们还 听 , 国 科技 造业
挺, 国 是世 上最 商品出口国之一。 底哪个 法才
是对 ?这就涉及 计 另一个方 :对优质数据 合 分 有
还是 临激 外国竞争正 于萎 过程之中?
去似乎矛盾 两个观点融合在了一起,为我们展现出一幅关于 国 造
业 趋 图。
图3-1 “铁锈地带”的复苏
这一对看似矛盾 观点取决于我们 何 义 国 造业 “ 康
又出现了强劲反弹。这一点与 国中 局 《世 》里 数据相吻
合, 国是世 上第三 造业出口国,排在中国和德国之后。 今,
国 是一个 造业 国。
作岗位—共同组成了关于 国 造业 一个 整 故事。 国 造业
产 在不断提升,也就是 ,工厂可以通过雇 更少 工人 成更
产出。这一点从国际竞争 度 是有 ,因为 国 造 商
既 本书 是关于 计 造业 知 ,那么就让我们 归正
传, 国 造业 “ 康 ”。 何 价一个行业是否 康,
整 故事往往都会包含两方 ,《 济 人》在上图中就作了明智
示范。
成 成绩低于2012年。”
部分 在 业上有所进步 部分 成绩正在退步,这两 是
政客乙(更接近精英派):“我们 济 一片光明。2012年有
70% 国人 收 都 加了。”
从这两句话中,我 读出 息是:诸 约、加 福尼亚、得 萨
刚刚举了两个虚 , 接下 这个 是一个真实且至关重要
具。
方式 读。我们不关心穷国,我们只关心穷人。恰巧世 上有绝对比
间 底发 了什么?回 一下刚刚那个虚 。世 上 部
不着 求时采取了不同 分 。 瑞 公司发动了一场
平 数就是所有数据求和之后再除以个数(3、4、5、6、102 平 数是
24)。中位数就是一组数据最中间 那个点,有一半数据位于这个点之
,有一半数据位于这个点之后(3、4、5、6、102 中位数是5)。现
在, 明 读 一 会注 24和5之间存在着巨 差异。所以,
出于 种 虑, 要让这组数据在描述时显得数 一些,那么我会选
择求 们 平 数;但 我 让数 看上去小一些,我 会将关注
点放在中位数上。
现在,我们 看一下这在现实 活中是怎么操作 。以 国 小布
国 庭。相关政府官员 出,在这项政策推行之后,将会有9200万
国人享受 税待遇,人 税额 过1000 (具体数字应该是1083
据。
刚刚研发出 ,可 会对 产 积 效,坏消息是这种药 价格
常昂贵, 且 作 有很 。“真 有效吗?” 会对这种药 满
。医 告诉 这种新药 延长 此 人 “半数 寿
寿命 典 。
人对这种新药 没反应,但同时也有相当数量(30%~40%)
很 年 人,也就是 计 里 异常 。 且,这并不是一个虚
。进化 史蒂芬·杰·古尔德曾 被诊断出 有 种 ,
他 半数 寿命只有区区8个月。但20年过去了,古尔德 于另一种不
一个单 技 丰 得 。
弱点。与之相反,平 数恰恰是由数据分布决 。从 确性
度 看,平 数和中位数 取 舍,关键就在于这个数据分布里 异常
对事实 真相是起 扭曲 作 ,还是其重要 组成部分。再次强
虑,但也有可 是 些人 有 心地 数据“ ” 。
过这么一 对话:
泰德:刚刚打得怎样?
维:啊,我没记数。
泰德:那 什么 人比啊?
维: 。
我引 这 影台 目 不是 明 有 幽 , 是 其实 计
巴 酒店房间价格,可 会让 6岁 录 站搜 — 方
永远不是 对 , 后 向 汇报巴 房价更贵一些,
镑。
此时, 会滔滔不绝地向 释英镑和 之间 区 , 后让
他回去重新 找这两种货币之间 汇 ,这样 就 对两个 市 房价
少? 和卢比 汇 又是 少?
价差还小。
义工资 买 ,这也是为什么工会代表在与雇主 时 会 “
活成本 整” 问题)。 商品价格 上涨速度快于 国国会 最
最卖座 5部 影 次为:
1.《阿凡达》(2009)。
2.《泰 尼 号》(1997)。
4.《星 IV》(1977)。
5.《 史莱 II》(2004)。
这个排名看上去是不是有点奇 ? 确,里 绝 部分 影都 称
典,但是,《 史莱 II》应该 其中吗?这部 影真 在票房成
。 莱 最常 事就是让最新 片看上去比上一部 场 更 、
更加成功。为达 这个目 ,一种方法就是 印度卢比 计算票房成
也 破这类 买 较差 货币 计 “注水”票房成绩。事实上,
整 票房成绩。1939年1亿 票房可比2011年5亿 票房 观
1.《乱世 人》(1939)。
2.《星 IV》(1977)。
3.《 乐之 》(1965)。
4.《外星人E·T》(1982)。
5.《十 》(1956)。
《 史莱 II》则落 了第31位。
有 时 即 是 苹 与苹 进行比较,也可以 不费 地 他人。
上一章 里曾 过, 计 一个重要 色就是描述数量随着时
间推移所发 变化。我们 税是不是越 越 ?与2012年相比,
百分 描述这些变化,因为百分 让我们相对直观地有一个
比 和 景 受。很 人会 饮 水中 砷含量降低了22%是什么
核 养院 比 上升了527%!我着实吃了一 。 怒 我 上开
筹划一场 抗税集会, 就在此时,我才知道这一变化给我 加
,并不是一个 庞 昂贵 。据《芝加哥太阳报》报道,对
于一个普通 庭 ,其支付 税额仅仅是从1.15 上升 了6 。
算,相当于 国劳工部和财政部 算 和。
句话都没错。
时间 度上稍长一些。他对这 听众 出,吉米·卡特( 主 人)
是开启国防建设 当之无 先 。正 下 这张“ 主 版”
幻灯片所示,卡特掌权 1977~1980年间, 国 军费 长趋 与 任
span=usgs302&year=1988&view=1&expand=30&expandC=&units=b&fy=fy12&local=s&state=US&pie
=#usgs302
虽 计 要点在于为我们所关心 事 描绘一幅有 义 ,但
,他们 景和 是很不一样 ,比 , 教
( 所在 级)呢?
不忍睹。所以,我们 要在 , 至 级层 上将一些“附加 ”纳
估 其实是这些教 因 。
有人会 这并不 ,只 要在开 时给 安排一场摸底 即可,再
和 景 教 质量 计 价方法,在此 间,我们所有关于
选择性 , 思是 要进 这些 中,就必须提出申请,
申请 中只有很小一部分 人 , 这些 在 选 时最重
要 参 据就是 成绩。我们就这个问题作个小 :(1)这
进 这些 习, 先 要有 常 分数。这一逻辑就 比
是给一支篮 队 奖, 由是这支篮 队 训练在 进 长 方 贡
卓著。
对 要衡量和管 对 ,就算 找 了一个有效 价 ,
。无 是 ,都不会对激励措施(哪怕仅仅是几句 扬 一个地
坏消息则是,在 些时 , 计 功 仅仅是让数据看上去更顺眼。
这不是一个虚 , 国教 部 部长 德· 奇就是因为这个问
数。
上 下这么一句话:“当《60分钟》 新闻杂志 目 组敲 门
时 , 没有什么 事。”之 丹· 瑟和《60分钟》 目组专门去
州 ,有证据表明休斯敦 中 有 让 习 较差 级,
又不至于让他因辍 影响 升 。
府之 出台了“记分卡” 度,对接受心 搭 人 亡 进
。但就是这么一个“ ”政策,却导致了更 人 亡。
心 科医 会在 他们 “记分卡”。但是对于一个外科医
分医 在救 伤方 已 竭尽 了。降低 亡 最简单易行 方法
是 绝为那些 最严重 人动 。 彻斯特 医 与 医 院
一项 表明,以 务 人为 衷 记分卡, 反 会给 人造
作为一个 计 ,不仅时常会“携带”其他描述性数据可 存在 陷
这个 国 等院 排名 中,权重最 是“ 名 ”,该
于强 “输 ”( ,录取了哪些 、教 员工 薪资待遇、
教授所占 比 等),反 忽 了教 “输出”,除了仅有 两个 外
。正 迈 尔· 弗逊所 出 :“从这份排名中,我们无从知晓进
所 过4年 习之后, 是否提 了,他们 知 是
否 长了。”
引 , 部分 最后发现自己 也是无 功。
名。”
不是 连 、动作片 科幻片 ?
这些影片都是我 常喜 。
不可 。 飞公司只不过是掌握了一些 常 杂、精 计
测精 得令人 。
《屋 明人》和《 争之 》。
低与 淇淋 销量就存在相关性,当温度升 时, 淇淋 销量也会相
凡事都没有那么简单,有些时 也会出现与上述相关性相违 现 。
着有 义 关 。
点分布图:
图4-1 身高与体重散点分布图
我们要绘 一幅关于锻 ( 周进行 运动 分钟数)和体重
等量 改变。
相关 数越接近1 -1,变量间 关 性就越强。 相关 数为零(
码和 成绩之间 关 。
实现过程是怎样 ?
数 计算过程 下:
1.2个 差, 公式 表述即为[(72-66)/5]=1.2, 于平
体重0.9个 差,即[(168-177)/10]=-0.9。 确,
于平 ,体重却 于平 体重,我们可以 “异常” 形
和-0.9,单位神奇地消 了。
化?
一个变量和平 之间 离与另一个变量和平 之间 离在
一个变量和平 之间 离与另一个变量和平 之间 离在
要?
这些问题 答 其实都隐藏在第1章和第2章 里。 中时 成绩
是一个有 陷 描述性数据。一个选修了数 、科 等 性较
程 ,可 末成绩很一般,但其 和潜 可 要优于那些
虽 成绩很 但选 程都较为简单 同 同 。 将 个 进行
向比较,那么这类差异就会更 了。 国 委员会 责SAT测 出
且比SAT花费少和易于操作。不过有一个问题,百米短 成绩与
表现可以 不相关,这是两个不相关 变量,虽 数据收集并不费
劲,但 也不会告诉我们有 义 。
关 。两个变量存在正相关 相关 关 ,这并不代表其中一个变
量 改变是由另一个变量 变化引起 。举个 ,之 我提了一句,
对这样一个相关性最符合逻辑 释应该是,受过良 教 长既
庭。
》。太精彩了!这是一部关于一个伟 庭 伟 影。详细 影
此片,我 不吝啬地打了5颗星, 符合 飞 测。
没有看过 影。
飞公司发起了一场比赛,邀请公众参与设计影片推荐 ,以帮助 飞
给出 分正 对应 站之 测),比赛 可以获得100万
奖励。
飞公司;第二,获 必须“向 世 描述 是 何 ”。
计 和计算 专 组成,他们分 自 国、 地 、加 和以
色 。遗 是,我无法在这里向各位介 他们 获 ,就算本章
补 知 点对此也没有提及,因为他们 成 介 长达92页纸。 飞
样?
这就是相关性 真 。
本章补充知识点
要计算两组数据 相关 数,我们 要 以下几个步 进行。为了
让 更 地 ,这里 个步 都是基于一张15个
与体重 数据表。
1.将 个 换为 :( -平 )/ 差。
2.将 个 体重 换为 :(体重-平 )/ 差。
中为15),就可以得 相关 数。
关关 。
在我们介 相关 数 公式之 ,有必要了 几个数 符号。求和
)/n。
更符合数 范 格式 表述,那么求和公式就应该 成:
以表示为:
再加上其他通 符号,变量x和y 相关 数r 运算公式可以表示
为:
其中,n代表数据个数,x¯代表变量x 平 ,y¯代表变量y 平
斯》 豪排行 可 性更 ?
人 眼镜 是,参加品鉴会 不是 人,正是100名米切 啤酒 忠实
业 赛 裁 督整个活动过程。 虑 在数量众 观
样,那么就会有1/2 百 、米 米切 啤酒 最终选择施
茨!
穿裁 裁 法整个盲品过程。毕竟是 直播,就算施
茨已 私底下进行了 量 ,并证明了有1/2 米切 啤酒 会
选择施 茨啤酒,又有 证在最终直播 时 不出岔 ?万
米切 呢? 我们让100个人排成一队,逐个抛硬币,出现85 90个硬
币反 向上 可 性也是 存在 。对于施 茨公司 ,在直播时
领 “ 级英雄”,那么这时 就会是这个英雄俯 飞 施
位啤酒盲品 ), 一次 都有两个可 (施 茨 米切
响其他人 选择。
个 范围 积 , 有不 于40位盲品 选择施 茨
一点 都不 。 盲品会 真 抛硬币一样,那么运 基本
知 ,就 得出至少有40人选择施 茨 为98%,至少有45人选择施
正 1/2。
口 上没有什么区 。本章将主要就第一个启示展开叙述。
抛了4次,我事先无从得知4次 确 ( 也不 ),但我可以事
点功 )就 活中那些与 相关 现 ,从 险业 运作原
队 排兵布阵和赛场取舍。
硬币 是正 为1/2,掷一粒 得 1点 为1/6,还有
,澳 亚运输安 局发布了一份有关乘坐不同交通工具致 险
整整 出35 。
2011年9月, 国航空航天局 一颗重达6.5吨 卫星退役, 计在进
真正 危险 不见。在史蒂芬· 维特和史蒂芬·都伯纳所著 《
有时 还可以在事后告诉我们,什么 是最有可 发 , 什
么 是最没有可 发 ,比 DNA分 。 《 现场 :迈
卵双 )。 医 专 证实DNA样本吻合,就 明 方 取证工作取
实 室中 这部分DNA样本 吻合。因此,基因数量越 ,上 自
遗传变异也就越 ,取证 确 也就越 。换 之,DNA样本与 个人
DNA相吻合 也就越低。
字都代表一个有10种变化可 基因:0、1、2、3等。 在 现
场, 人员发现 “DNA数据”残 片 为:__459___4_0_9817___,
且正 与 “DNA数据”相吻合。 吗?
景和事件 去 。 发现 时 , 正在 速 汽
进行一一比对,两个人 DNA在所有13次比对中都吻合 是 常低
题。
很 时 ,了 重事件同时发 是很有价 。 且 发
正 上 为 1/2 , 连 抛两次都得 正 上 为
弹出一个对话 ,提醒 提 开 码 “安 级 ”。 设 开
码 为 6 位 , 且 是 数 字 , 那 么 共 有
6
10×10×10×10×10×10=10 种数字排 组合,不要以为这种组合很
杂,对于计算 ,不 一秒钟,就可以将这些数字排 组合 都
一遍。
字 加 上 10 个 数 字 。 可 组合出 码数量也上升 了
6
36×36×36×36×36×36=36 个, 过20亿个。 要求将 码长
度 加为8位, 且强 建议 #、@、%、!等符号—芝加哥 就
8
是这样 ,那么可 组合出 码数量 升至46 , 过20万亿
个。
一个事件 发 及其 对另一个事件不会造成任何影响。 , 第
一次抛硬币得 正 上 并不会影响 第二次抛硬币得 正
开 撞向 库 门之后,这个 就上升了。
点 3点 就是 们各自 之和:1.6+1.6+1.6=3.6=1/2。这个
是8/36。
得3 ,以此类推。那么在这个游戏中,掷一次 是 少?
一个 都有1/6 ,因此 为:
1.6(1 )+1.6(2 )+1.6(3 )+1.6(4 )+1.6(5
)+1.6(6 )=21.6,即3.5 。
粗 看一下,3.5 似乎是一个无效数据,毕竟 不可 掷一
一个 常有 参 数据,通过比较成本 和 收 , 就 知道
清哪些事 得 险。
在上 这个 基础上,我们可以进一步将 延伸 国 业
择,要么直接射门再得一分,要么进行一次两分 尝 。 选择
计 不 ,也从不和啦啦队队长约会,但他们却 为
运 还不错,中了2 。
着 次数 , 平 会越 越接近 。是 ,我今天
买彩票 确中了2 ,我明天也有可 再中2 ,但 长年 月地
酒 参与啤酒盲品测 。下 是“施 茨 ”测 “ 度
其实 数本 并不 杂,X 了各种可 出现 ,Y 表示 是
盲品 人数 ,越 越 向中间(也就是有一半 人选
择施 茨啤酒)集中;与此同时,位于曲 两端 端 出现
则下降得 常厉 。
图5-1 选择施利茨啤酒的盲品者人数
图5-2 选择施利茨啤酒的盲品者人数
图5-3 选择施利茨啤酒的盲品者人数
在 文中我 过, 有 于 等于40% 米切 啤酒 在盲品测
盲品人数 件下得 满 :
10人:0.83。
100人:0.98。
1000人:0.9999999999。
1000000人:1。
味着与 险公司签订了合同,明确 当 些 外发 时, 人
获得一 数额 付。 ,在 汽 被盗 撞 上之后, 就可
以根据所 买 险合同进行 。但在享受 这一项 务之 ,
了从 这里获得 额 费, 们 要承 被盗、撞 ,
至因为 差劲 技 引起 各种 辆损坏 险。
计 度 看, 买 险是一项“ 糕 资”,因为平 看,
最后,我们 那价 99 打印 。 设 刚刚从百思买 其
他地方精 细选了一台 潮 激光打印 。当 账 时 ,销售
人员会向 提 一份详细 修延长清单,比 额外支付25 ,可
可以很快 以下几点:(1)百思买是一个以 为目 商 ,因
商 就不可 会 此卖 地推销了;(4)就算价 99 打印 坏
困 。
浪费钱了,这是个人 财 核心原则之一。
成功 有 , 友 回答很 杂。由于这是一个研发项
督管 局 为这一神奇 治 发 产品对人体安 并 进 市场
也只有60%; 了那个时 ,即 我们 产品安 有效, 还有
动心了吗?
不产 一 伪阴性(也就是从不漏过任何一个 上该 人),但产
伪阳性(也就是一个没有 上该 康人被 测为阳性) 为万
分之一。这样就会导致一个 ,虽 这种 测 确
图5-5所示。
图5-5 某疾病全美国筛查情况
只有1750位成年人 有该 ,他们 测 为阳性。有 过1.74
该 。
这 味着什么?我们一起 分 一下。 共有19250人 测 为阳
”上,即 在 同性 、采取 注射 吸 分 等 危人
上。
师事务所才知道)。 国证 交易委员会动 计算 强 分
,因为无 是 济 还是历史数据都告诉我们, 年 收 都 过
资 们 是 测 市场 ,在法律 范围 设计出
为 ,但他们至今也没有给我回 。
”, 是圣 兹市 局 程序 测出闹市区 一个 场
常客,另外一个人 上携带着 品。
侦 领 , 测未 已 成为可 ,诸 趋 、 断社区
那本书了。)
“ 测 法”属于 测分 一部分。 是带有不确 成分,
在 人眼里可 无关 随 事件:
● 在伊 诺伊州最 常 窃 是本田思 (亚 巴 州为 尺寸
佛兰 卡)。
蔽,更加不把心思放在专心开 上。
及其他零售商品 加 轮 公司有一位“ 数 席 行
汽 排 进行 排量改装 人基本上不会 时还 。”
节目中 (下一章 就会 )。
虽 了( 了)这么 ,但还是要再 一句: 并不是确 。
下 1号门和2号门中必 有一 门后 是汽 , 应该 何选择才 中
奖?
眼 有3 巨 门, 号分 为1、2、3。蒙提会告知参赛 ,其中
一辆新 回去。)
在自己刚刚没有选择 那两 门中,至少有一 门 后 是一 。
参赛 应不应该改变最 选择?
答 是 。 参赛 持最 选择,那么中 奖 为1/3;
请往下读。
我承 这样 一个答 似乎有违直觉,因为在这个过程中,参赛 中
奖 似乎一直都是1/3,不管这个参赛 后 有没有改变选择。一共
有3 关闭 门,一开 时 一 门后 藏着 奖 都是
1/3,但是当参赛 改变自己最 选择 选择另一 门之后,中奖
会随之变化吗?
问题 关键就在于,主持人蒙提· 尔本人是知道 一 门 后 奖品
参赛 选择了1号门, 小轿 在2号门后,那么蒙提就会打开3号
门。
参赛 选择了1号门, 小轿 在3号门后,那么蒙提就会打开2号
门。
性。
·泰 尼专门就“蒙提· 尔现 ” 了一篇文章。随后这份报纸还在
这里获得了两 辛苦费。
《让我们 个交易》节目 计 也印证了这一点。《醉汉
步》 作 纳德·蒙洛迪诺也证实,那些改变选择并得 奖 参赛
人数是 持最 选择并中奖 参赛 两 。
否 放弃 之 选择,换取另外两 门后 奖品?”也就是 ,
了!”
门, 后 接受了,放弃一 门换 两 门, 此时得 轿 也
会是2号门!蒙提可以 是什么都没干。
游戏正常进行,蒙提实际上是给 提 了两个选择,要么 持最
选 那 门,要么选择剩下 两 门—只不过其中有一 后 是 门
没有 奖,因此在 下 两种 中 中 奖 是相同 :
两 门,因此 也从1/3上涨为2/3。
了,一 是 最 选择 47 号 门 , 一 是蒙提剩下 (比 61 号
门), 要换吗?
简 之, 有 会参加《让我们 个交易》节目,当蒙提· 尔
( 是他 任 )问 是否要改变选择时, 要 不 豫地点 。
更 张 法是,这个 告诉我们, 对 本 有时 会将
引 歧途。
本书由「ePUBw.COM」整理,ePUBw.COM 提供最新最全
的优质电子书下载!!!
样章 此 束
要 整版
下 二维码
加微 :shuyou099
领取
为什么样 工作压 更 易 场人 猝 ,是“ 乏控 和话
会导致早逝,尤其 心 猝 陡 。但这种致命 压
有所不同。公司 管们几乎 天都要 出重要决策,这些决策
关 他们公司 途命运,但他们所承受 险要远远小于他们 秘
于 地, 是那种等着上司给 布 任务,但自己又没有权 决 怎
么 成、何时 成这些任务 压 把人压 了。
个真正 公共 康 胁。
发 差异 影响相对 并不是很 )。
人员发现,在幼 园长 升 小 后比没上过幼 园 更
易出现行为问题,这项研究并没有将几千名 童随 分配给幼 园
人抚养,也不是简单地将在不同环 中长 小 进行比较, 忽
策, 这些决策会进一步影响 在小 间 表现。 得
当,回归分 排除其他因 影响( 庭收 、 庭成员 、
彼此之间应该存在细微 差异。
运动)。
基本 门 设 为5% ,那么这一个发现就具有了 计 义。
确对 强心 功 有 ,但是,我们也不 忽 这种运动并不
,但事实上真正 康受 于 支撑 运动习 财 (打
要是 )。
表现在:将我们所关心 计关 离出 , 工作中 支配
因 看上去似乎是彼此 、 不可分 。
道 会不会回忆起我们在 文中 过 。
图12-1 身高与体重散点分布图
让 描述一下上 图, 会 “体重看上去似乎随着
加 ”之类 话, 得很对,但离满分还有点 离。回归分
让我们更进一步, 更加精确 话 描述这两个变量之间 性关
比重)。
图12-2 身高和体重的最佳拟合回归线
文中提及 技 性描述让 话,请记住一点:OLS 是
。被 释 变量—在这个 中变量为体重—被称作因变量(这是因
为 于其他因 ), 我们 释因变量 变量被称作 释变
量,有些时 , 释变量又被称作自变量 控 变量。我们先
体重=-135 + 4.5 ×
为这是计算所有体重 起点。
b=4.5 。我们称为回归 数( 数) b 计算为4.5 ,此为
对“变化 一 ”项目 研究对 和体重关 最 描述。我们
中, 数为正,也就是 , 人 向于体重 重。
有一些关 正 相反,比 运动量和体重。 “变化 一 ”研究
中还包含了 “ 个月 步 英里数”,那我可以 这个“英里
性因 。为什么一些人比另外一些人挣得 ? 释变量最有可 是教
、 、从业时间等。在一个 数据组中,研究人员还发现在其他
特点有关,正是因为这种性格特点,才带 了更 收 ,他们之所以
挣得比 人 ,是因为他们具 护 这种性格, 本 。这
此,就会得出另一个不同 回归 数。“白厅”研究(英国政府官员
)数据里 和体重 关 很有可 与“变化 一 ”项目 研究
。与 测 其他形式 推 类似,我们也可以计算出回归 数
差。 差衡量 是,对取自相同 体 个样本进行回归分
所得出 回归 数 离散程度。 我们 取3 000 名 国成年人进
行 和体重数据 收集,那么在回归分 中我们可 会发现,他们平
成这一计算。
知 点。
还是回 数据(以及正态分布)上 ,我们必须 差
基本上就算弄清 了,因为现在我们就可以进行 设 了( 真 ,
告诉我 已 忘了有这么一步了!)一旦得出了回归 数和
0)” 零 设进行 了。
式是,我们可以建立一个95% 区间(4.5±0.26),也就是 ,在
本 计软件就 算出这一区间。第二种方式是,我们可以 在 和
体重 相关性95% 区间里不包 零。由此,我们就 有95% 把
握推 “ 与体重之间不存在相关关 ” 零 设了。这个 显
著性水平为0.05 ,也就是 在推 零 设这件事 上只有5% 是
错 。
少是 差 两 以上 时 ,该 数 有可 具有 计 义。
计软件还可以计算出这个 中 约为零,这就 味着
端( 更加 端) 基本上为零。要记住,我们并没有证明
人 体重就一 更重,我们只不过表明了,由“变化 一
常 事。
关心 ( 分数、收 心 )之间 错综 杂 关 。当
式:
为0.05 。
寸,体重 加4.6 磅。
时 , 参与 是 性,我们就 1 表示; 参与 是 性,
我们就 0 表示。性 数可以 为,在其他因 不变 下对
下:
0)
对于一位 为 65 英 寸 53 岁 性 , 体重最有可 约
为这个人不是 性。
今还 持着 度 种族 离, 洲裔 国人比起其他 国人,更有可
居住在“食品沙漠”中,也就是销售水 、蔬菜和其他新 食 食品
杂货店匮乏 区 。
观 。 ,我们可以先 持其他社会 济因 —比 教 景和 困
、运动量、 困水平(是否接受政府粮食补助),以及种族因 后所
发 变化。
归 上。
区间是7.7~16.1 磅。
个严 研究项目,那么将会有长达数周 至几个月 分 ,以
研究 : 场 性 歧 。 歧 ,一个最 受就是隐晦和
求 败 只 找其他工资待遇较低 工作)。所以我们只 另辟
径,看看不同种族和性 人 收 差 有 :白人挣得比 人 ,
中无法 释 成分已 不 4% 了。
在 成MBA 业 年之后 收 差 。”
都不 一样,那 计软件是 何控 、性 、年 、收 等 释
因 呢?
最 地描述教 和体重之间 性关 。
最后 一句题外话,现在 见 数据组 厉 了吧。 们 让
间 关 。 年以 ,“白厅”研究项目一直在观 英国 公务员
体, 图发现岗位层级和心 亡 之间 关 。一项早 开展 研
究对17 530 名公务员进行了长达7 年半时间 连 观 ,发现“低级
较 、血糖较 、吸 较 、下 后 活动较少。
过程中“控 低” 雇员 上 心 险要 于“控 ” 雇
员。同时,研究人员还发现对工作要求 雇员 心 险并没
有比其他人 ,在社会 可度低 岗位上工作 雇员也没有表现出 易
上心 向。因此,似乎只有对工作 乏控 和话 权才
是“ 命 ”。
法进行控 实 ,因此对于这些以及其他具有深刻社会 义 题
,我们 要 本章所 研究 。 不 张地 ,在过去 半个
么呢?请接着阅读下一章 。
本章补充知识点
在进行回归分 ( 其他形式 计推断)时,小 样本数据会让
作为计算 据。
, 设我们正在计算一个回归方程式,零 设是 个具体变量
回归 数为零。在得 回归 以后,我们 可以计算出一个t
零 设。在上 设 回归 中, 我们 自由度为4,我们
所 要 t 计量至少要达 2.13,才 在0.05 显著性水平上
(在单尾 设 中)推 零 设。
表12-1 体重回归方程式表
世 上3 本最有 医 上 49 篇 研究 文中有1/3 后
都被推 了,所以,“尽量不要 回归分 研究 人”。
性可以通过摄 激 防心 、 质 松以及其他与更年 有
关 。 止 2001 年,有差不 1 500 万名 性正在 激 ,
开药 医 称 们 激 以后 体会更 康。为什么呢?因为当
与此同时,科 和医 们还为补 激 有 于 性 康提 了医
上 支持。随着年 长, 性卵巢分泌 激 下降,
激 真 对 体 常重要 话,那么在老年时补 这一不 将有
于 性 长 康,因此他们还为这种治 方法取了名字: 激 补
法。一些研究人员 至开 建议上了年 性也应该适当补 一些
激 。
片 ,另一组样本只是 安 片 , 显示,摄 激 性
心 、中 、血 、乳腺 和其他 险要 于对 组。补
激 确实存在一些 ,但这些 其他 险相比根本不 一提。从
中 上乳腺 过早离世 ?
回答是:“合 估计至少有上万人。”
用回归方程式来分析非线性关系。 不知道 是否 过吹
上贴 那句 示 —禁止在浴 中 。 看 了,心里一
节 尔夫 我 数快速降了下 ,因此在这个阶 ,我 程数
与 数是呈 相关关 ,斜度为 ,也就是 ,上 降低了我 数
(对于 尔夫 这是一件 事)。
差,有时 至还会有危险。
相关关系并不等同于因果关系。 我之 所 ,回归分 只
显著且有 计 义 关 。 设我们正在探寻过去20 年里 国 自
闭 不断 原因。我们 因变量—也就是我们正在 图对其
出 释 现 — 要对自闭 进行量化,比 千名 个年 童中
。
这是为什么呢?因为 们在同一时 都出现了快速上涨 趋 。但是,
我 度怀 即 中国出现 济衰退, 国 自闭 童也不会因此
关 。
导致B,因为 有可 是B 导致A。还记得刚刚 那个 尔夫
吗?我当时已 暗示了这种现 存在。在我搭建 释 里,击
成绩 终是因变量, 释变量一直锁 在 计 程上。也就是 ,上
正 本章一开 所 ,因 关 有时 是双向 。 设 正在
一项 显示, 国在K-12 ( 从幼 园 12 年级 童教 )上
州 济 长 要 于K-12 项目 少 州。但就算这两个变量
关键在于,我们不应该 那些(我们正在花 释 )受 影
响 释变量,不 话,因和 将会永无休止地 下去。举
、 和关节炎》这类 题时,千万不要 。 尔夫 员 上
这些 比不打 尔夫 人 —关于这一点我一点 都不觉得
奇 ,但我同时也 为打 尔夫 有 康,因为 不仅 丰
社交 活,还 为 提 适当 运动量。我应该 何在这两个 不同
观点之间进行取舍呢? 常 易。无 什么研究,在量化 尔夫 对
康 影响时都必须正确控 “年 ”变量,通常 ,年 越 ,打
尔夫 时间和 会越 ,尤其是在退休之后。在打 尔夫 这个
防起 正 效 。这 提 报纸 题有着天 之 。
释因 色: 不仅告诉我们打 尔夫 对心 影响, 且还
告诉我们年 长对心 影响(因为打 尔夫 人通常比其他
人要年老一些)。 计 表达,就是打 尔夫 这个变量“覆
反。
高度相关的解释变量(多元共线性)。 在一个回归方程式
对 影响。
受教 程度都纳 方程式中,因为这才是 庭教 景 有 参 。但
是, 回归分 目 是单 离 亲 亲 受教 程度,那么将
两个因 都纳 虑范围反 会引起混淆,让分 变得 糊。丈夫和
受教 程度存在着相当 相关性,以至于我们无法通过回归分
得出一个有 义 关于 个 长 教 程度 数(就 我们 以区分
可卡因和海洛因对 影响一样)。
化 一 ”数据样本得 回归方程式中去,计算出我刚出 体
重为-19.6 磅( 实际上, 刚出 时 体重为8.5 磅)。
尽可 潜在 释变量,看看最后有哪些变量具 显著 计
义, 那个时 我们 就会得 一些答 了。 在回归方程式中加
了 无关变量,那么 会有一个恰 达 显著性水平 门 ,
且 这类无关变量并不是那么 易被 觉 。至于为什么 些在实际
操作中 不通 变量在方程式里具有了显著 计 义, 明 研究
人员 是 在事后建立 时给出 释。
人。
宣布 择 设成立,即这位 有抛硬币 是正 上 特殊 。
在他 束了这一令人印 深刻 “神技”表演之后,我们 可以从他下
,寻找成功抛硬币 蛛丝 迹了:他抛硬币 动作、他 体 训练、
当硬币在空中时他 注 放在哪里,等等。自 ,所有这一切 最后
都可以 “荒唐”二字 。
,但同时也出版了 得令人咋舌 垃 。”
,包 那些 在顶级同行间审阅 上 文,都是无法
。”(同行间审阅 上 研究成 和文章,在 之 都 要
过同领 其他专 审阅以确 研究 可 性,这类 被 作
研究成 “把关人”。)之所以会有这样一个“不可见人 秘
”,其中一个原因就是在 章节中介 “发表性 见”,
研究人员和医 杂志 量关注 性发现 忽 否 性发现,那么 们
回归方程式, 清 应该 虑哪些变量、应该从哪里收集数据,一
个 方程式要比 计计算本 更加重要。这个过程可以通过对方程式
价和回归方程 具体化 实现。优秀 研究人员 对变量进行逻
辑思 ,决 哪些变量可以加 回归方程式中,发现还有哪些遗漏
变量,以及正确 读最终 分 。
不 示操作,那么就算是“神奇 万金油”也会 效 。
哈佛 等世 顶尖 毕业 进 社会后,其收 往往 于一般
毕业 ,让他们获得 收 究竟是常春藤 教 优 ,还是
他们本 就很出色?
东西 提 参 。上哈佛 会给 人 带 什么影响?要回答这个
问题,我们就必须知道 去哈佛 读书以后发 了什么, 没去哈
佛 读书又发 了什么。显 ,这两个数据我们是无法兼得 ,但
明 研究 就 找 有创 方式 测量 种 法 介 (比 去
哈佛 念书) 影响,也就是在现实与“反现实”(在介
提下所发 )之间搭建比较 。
损 。 更 站岗 巡逻 通过自 以及 捕坏人
少了 ,那么这项在 加 方 就可 是收 了很 效
运 上, 加 控摄 安装数量等)。
更 与 因 关 是什么?这样一个看似简单 问题其实
有着各自特征 市, 们 人口组成不同,打击 所 临 也
各不相同。
我们通常 法是 图 出一个回归方程式,对这些差异进行控 ,但
这次就算是 回归分 也无 为 了。 我们 图 人 数量
欢迎 项目 估阶 ,在这里我们会探 与测量 些介 因
作 ,从新 药 就业 决政策,从 中 辍 派更
上街巡逻。所有这些我们所关心 介 都可以称为“治 ”,
虽 这个 更 是出现在 计 里 日常口 中。治 可以是
行比较。
在 以弄清原因和 时 ,项目 估提 了一 于 离治 效
工具。回 刚才 和 问题上,让我们 看看宾夕法尼亚
乔纳 · 里 和乔治· 亚历山 · 巴洛 是 何
袭击目 ,因此在发出“ 度戒 ” 日 里, 里 些区 会
派巡逻 。 设街 和 怖 胁之间没有相关性,那么在华
顿特区 加 就与传 之间不存在相关性,也就是所
“外 变量”。这两位研究人员最有价 贡 就在于发现了一个自
两位研究员还发现,在 度 戒 日 里,那些 派最 区
下降 幅度是最 (这是因为这些 区是白 、国会 厦和国
实 对 中 会有个 、个 矮 、 、 康 、 、
、 、酗酒 、 资银行 等。我们 何才 证这些不同 特
特性。
医 就是典 随 控 实 。 是“双盲” 临床
方 并没有比“ ”有效。
我们可以 随 测 一些有 现 。 ,陌 人 祈祷是否
可以加快 人 后 ?人们对于宗教 和 千差万 ,
但《 国心 》主办了一次控 实 ,观 过心 搭
没有人为他们祈祷;第二组有人为他们祈祷, 且 人自 也知道;第
三组也有人为他们祈祷,但研究人员只告诉这组 人,有可 有陌 人
成功、 康 、没有并发 ”。
没得 祈祷 人之间发现任何 后 上 不同。但是,也有人
这项研究遗漏了一个潜在 变量: 自于其他渠道 祈祷。《 约时
收 自未知渠道 祈祷— 友、 人、 世 各地 天为 和
于弥 之际 人所进行 祈祷。”
在人 上 实 可 会遭 逮捕,也有可 让 坐上国际刑事法庭 被
出人 料 是, 级 小和 成绩之间 关 异常 杂。一般 ,
开设小 教 有 资源也更 ,这些 和老师与
终于将自己 了小 ,诸 此类。
至今,STAR 项目 是测 小 教 效 唯一 随 实 ,其 无
是在 计 义还是社会 义方 都是 凡 。 体上看,小 在
致 研究与其他任何精致 事 一样,都有一个共同点,那就是价格不
菲。
要 将教 和寿命放在一起 ,那么我们会对这一对看似不相关
实则 交错 变量作何 价?受教 程度 人往往活得更久,这个
《 约时报》报道:
“无 是哪个国 研究人员,一个他们达成共 与长寿相关 社会
行 办法就是, 助 些让不 深造 人 在 自 实 得出
国 “自由”精神了。
可 往往 不进现实。 国 一个州都 了相关法律 证最低
整 州。 研究接近于一个 实 室实 : 法律,伊 诺
伊州 居 不得不在 接受7 年 教 , 他们 邻居—印第安纳州
居 只 要 成6 年 业就可以选择离开 了。 与实 室实
带 巨 优 吗?哈佛、普 斯顿、达特茅斯等名牌 毕业
确实 常出色,他们 工资更 , 活也更加精致和丰 彩,相比
他们是否接受过 教 ,都有可 成为 活中 。
两 都有?
教 效 呢?开动 筋就 找 出 !两位 济 斯 西·
尔和阿兰· 格发现,其实有很 在 中毕业时会同时申请 所
组( 才华和实 以进 名牌 却选择去竞争没那么激
习)。
长优 。 尔和 格 方法有效地将实 效
比起毕业证书上 名字,正确 自己 兴 、 和 更 成
就人 一 ”,这其实也间接回答了本章升 所提出 那个问题。
可 还有其他“介 ”因 在发挥作 :越 越 性进
“差分类差分”法可以通过两个步 明确 个介 因 效 。
先,我们对 个 体接受 项介 因 治 之 和之后 数据进行比
较, 推广 进就业政策之 和之后 个县 业 变化 。其
次,我们将这些数据与另一个没有推出就业政策 同类县同 业
进行比较。
基本上都相似;因此,两个对 观 若存在任何显著差异,就应
该被 为是所 估 项目 政策 效 。举个 , 设伊 诺伊州
一个县为了应对 业 ,推出了一个就业培训项目,但在接下 两
行比较,其中一个县推广了就业培训项目,另外一个县并没有推广,除
起另一个没有推广该项目 县,呈现了一幅什么光景呢?通过比较两个
样 观 济 作 。最 我们 为就业培训项目一无是 (因为在项
出 了。
对 进行比较。那些刚 过 微不 件( 分数 最低
要寻求上进 提 成绩 会。
所以,我们 实 组和对 组应该 自那些正 在 上成绩居中 同
,有一些 刚 被老师安排 补习 ,有一些 差一点 就 去
坐 与量刑较 少年 ,因为被 坐 少年
了 除刑 25 年 禁 险)。伦敦 研究员兰迪·加尔
曾在 国华 顿州开展了一项关于 少年 , 图弄清严厉
刑 与 少年今后 行为之间是否存在 种相关性。具体 ,
要 释) 两 少年 。
华 顿州 司法体 专门设计了一个坐 为 一位 错 少年
,其中一个人之 计 分数为
了了 种介 治 真正 效 ,我们 要看 “反现实—事实
”,即 没有介 治 会发 什么。但是在 时
,“事实 ”却没有那么 易 至不可 被发现。举个 :
伊 让 国变得更加安 了吗?
“反现实”。对这个世 探 在很 时 就 于寻找“反现
实” 明才智。
结束语 统计学能够帮忙解决的5个问题
就在不久 ,数据 收集还是一件 常困 事 ,数据 分 更 要
支付 昂 费 。过去 交易记录都 要 助纸质收据,因为 于分
积数据 个人 还没有出现,但在区区几十年后 今天,我们 至
政策。”
今,各种数据几乎要把我们“淹没”,但从 体上看,这是一件 事
因此,我觉得 问题 答 束 书是再合适不过了。在我们消化
和分 海量 息 同时, 下 这5 个重要(且随 ) 问题,通
橄榄球的未来在哪里?
2009 年, 尔科 · 格雷德 尔在《 约客》 一篇文章里提出了一
都是具有破坏性 。读 整篇文章,我不得不承 作 眼
光。
荡和其他 损伤 导致严重且永久 神 伤 。( 击 和曲
损伤危 息。
安· 基是 萨诸 州 得福德退伍军人医院神 实 室 一名
日常 受 一次 部撞击,就相当于坐在一辆时速为25 迈 里突 遇
祸时 袋撞上挡 所受 撞击。
动员在晚年 上神 乱 险 于常人,我们也无法证明两 之间
因 关 :可 是 并从事 ( 击、曲 )运动 人天
他们晚年 神 。
不断有证据表明, 运动与永久性 损伤之间存在清晰 因
关 ,那么一个严峻且现实 问题就摆在了运动员(以及 少年运动
员 长)、教练员、律师、NFL官员, 至政府有关人员 : 否
残忍 运动。
乎所有 计分 方法都被研究人员派上了 场。
是什么导致了自闭症患者数量的激增?
国 控 中心在2012 年披 , 88 个 国 童中就有一个被诊断
有自闭 (基于2008 年数据)。2002 年 确诊 为1/150,
行为 广泛。 被诊断为自闭 是 5 (也
就是 , 至要 于1/88)。
第一个颇有 味 计问题就是:我们是不是正在迎 种“自闭 发
潮”、“自闭 诊断潮”, 二 合?在之 几十年 时间里,
延,其诊断人数 都是必 。
们还不得 知。”
是一样 吗? 不是,那是什么原因导致 ? 助传 计侦
法,我们 找 一些 。
都会 发心 。
低 哪里去。但只要这种伪相关性存在一日,就会有 长 绝带他们
去接受 苗接种。讽刺 是,这样 不但不会 少 上自闭
我们依据什么来奖励优秀的教师和优质的学校?
我们 要优质 ,优质 又 要优秀 教师,因此正常逻辑要
求我们对优秀 教师和优质 给予奖励,同时 雇不 责任 教
师,关闭教 质量不 。
何才 这些?
都有哪些知 ?一年后,他们对世 又丰 了 少? 通
过上 加 “附加 ”就是区 所在。
我们 至还可以通过 计 对该附加 进行更为精确 知,综合
虑 个 级里 人口 计 成, 种族、 庭收 等,以及他们
在其他测 中 表现(作为 价他们资质 参 )。 上 成
绩原 一直在及格 边 徘徊,在换了一位老师上 后没 久, 成
绩就出现了显著提升,那么这位老师 教 效 就 常 。
一切就绪!现在我们就可以 精 计 工具 衡量教师 教 质量
量 效 优秀教师了。
过类似 级。
这就是一个典 “公 公有 、 有 ” ,无 是哪一
方,都 在 种程度上站住 。达特茅斯 济 道格·斯 格
这 本 当天 空 ,可 是防不 防。这些 价 与教
师 一年 教 表现 关 度只有约0.35。(有 思 是, 价 国
业 选 与其年运动表现 关 度也是0.35,其中击
价 为击 , 价 为防御 )。
斯 格 ,虽 这类关于“以 分 英雄” 教 效 数据 常有
斯 格最后还提醒 :我们最 证所 估 (比 次 成
哪位教授 教 效 最 ?
答 是: 少又在 名牌 取得 位 那些教授们。他们
在 级 程 中 成绩普遍较 , 且他们在教 估中
得 价也通常较 。显 易见,这些年 、 满干劲 老师对
待教 比 暴 哈佛 博 老教授要 真 责得 。那些老人
退休。
”,因此他们 在 中 分数通常比较 , 自 会 开
心,给老师 价自 也不会差。
但是,那些上了年 、 固 资深教授们(我们在 一
解决全球贫困的最佳途径是什么?
何才 让 困国 摆 困 ?关于这个问题我们在很 时 真 只
裕国 和 困国 ,比 从 们 教 水平、政府 务质量等方 进行
里、布基纳法 等 端 困 国 改善现 。
法国 济 艾丝特·迪弗洛对原 计 工具—随 控 实 进行
行随 样实 。在这60 所 教书 60 位教师 出勤 话,
们 合一张影,表示这一天他们 教 了。
现 。迪弗洛和 研究伙伴发现,在粮食收获之后 农 们 中
肥 提 2%~10%。
小 否吃 饭。从古至今,人们一直存在一个观念,那就是 中
性 是将 康和幸福 于一个 位 , 中 性更 向
于把工资都花在喝酒 其他消遣上。往差了 ,这种观念只会让一成不
进行控 并逐个分 呢?
对这个 此 杂和微 问题,迪弗洛没有选择逃避。 至还为此
进行了一个令人无比着迷 自 实 。在科特迪 , 中 性和 性
作 对 量 求恰 相反:在可可和咖啡丰收 年份里, 中 性
奖,该奖项是由 国 济协会授予 , 奖对 为在 国 任
教、40 岁以下 。在 济圈,尤其是 济 “ 人”圈中,这个奖
中 MVP(最有价 员)。
迪弗洛所作 就是项目 估, 工作以及所有采 研究方法开展
破 活领 因 关 。
猜猜你是谁?
2012 年 天,我 雇了一个新 。 我 里 第一天,我向 介
我们 庭 景:“我是一名教授,我 是一位老师……”
“这些我都知道了,”那位 一挥,一 松 表
道,“我 录 页搜 过 。”
篇章里介 那些 测分 工作,通过销售数据与其他消费 息
合 回答“ 买了什么商品以及为什么买这些商品” 问题。当 ,
《 约时报》 一位签约作 程 随了 吉特 一个 测分 团队
了 他们是 何 位并吸引孕妇 。
是明尼阿波 斯市 一位 亲 一 吉特商场要求见 ,他 怒
地向 诉, 他还在上 中 最近受 了 吉特 类商品
晚给 装和摇篮 优 ,是 励 怀孕吗?”
测与 计专 们 活无关 事 就是 计专 工作。但在有 时
妈妈, 可 会在 里 箱中发现一些摇篮和纸尿布 优 ,
收集和分 有可 会 他们 隐私。
就是 何 这些 息。”
得太 位了。
方法,还是政府滥 科技 我们 人 自由?2012 年, 国
一个人?
数据,并从中获取有 义 息。 计 公式并不会告诉我们怎
因此,我 一组 束 书:火、小刀、汽 、 膏。
据!
致谢
本书是向早 国诺顿出版公司 一部 典作品—达莱尔·哈夫 《
人 百万册销量。达莱尔 创作 衷与本书一样,都是要 下 计
杰夫 人都会觉得他心地善良,根本不适合从事“ 稿”这么残酷
辑 业。但事实上,他 确 得不得了,但也正是由于他 这
康、 加我们 财 、提升我们 安 以及 我们 知 是 么
重要。
·卡盖伊都是我在 计方 启蒙老师,他们不厌其烦地为
我 其中 和 计方法上 细微差 , 他们 辛勤付出,书
了。
最后轮 我 人, 们在本书创作过程中对我 包 。 一章
交稿 限都被贴在 箱上,有证据表明 当交稿日 临( 错过)
稿了。
本书由「ePUBw.COM」整理,ePUBw.COM 提供最新最全
的优质电子书下载!!!