You are on page 1of 24

统计复习资料——ZQX

目录
统计描述..................................................................................................................................1
参数估计..................................................................................................................................3
单变量统计方法:...................................................................................................................5
方差分析..................................................................................................................................9
X 2检验..................................................................................................................................11
秩和检验................................................................................................................................13
关联性分析............................................................................................................................14
简单线性回归........................................................................................................................15
抽样调查研究........................................................................................................................17
实验研究设计........................................................................................................................18
Logistic 回归............................................................................................................................20
统计描述

定性资料的统计描述
使 用
指标 意义 特点
情况
二 分
反映某一种只有两种可 分子是分母的一部分;无
类 资
率(Frequency) 能结局的事件中,某个 量纲;在[0,1]取值。
料;
Actual numb关心结局出现的机会大 注意:几个事件的率相加
或 多 Frequency=
Posibal total小,即阳性率、携带率
numb 不得 1,除非是同一事件
分 类
等。 中的所有可能结局之和。
指标
多 分 反映某事件发生的数量
类 资 构成比(Intensity, Rate) 占所有统计事件发生数 求和为 1
料 量的比例
A 和 B 可以是绝对数,也
相对比(Ratio) 某段时间内某现象发生
复 合 可以是相对数;A 和 B 的
A 的频率
指标 Ratio= 量纲可以不同,也可以相
B
同,但 A 和 B 互不包含。
强度指标——率
强度是流行病学、统计学术语;(常见单位:人年)
相对危险度(OR)——相对比的一种:
暴露于某危险因素的发病率与未暴露于该危险因素的发病率之比。
相对比的注意事项:
1. 防止概念混淆
2. 计算相对数时分母不宜过小
3. 观察单位数不等的几个相对数,不能直接相加求其平均水平
4. 相对数间应注意可比性
概率分布

二项分布:
二项分布特点:
1) 每次试验只有两种互斥的结果
2) 为找到这些试验结果的规律性,通常需要在相同条件下独立重复做 n 次。
3) 我们关心 n 次试验结果中阳性结果的数目 X。
伯努利试验:一般地,对于 n 次独立、重复试验,如果每次试验只出现两种对立的结果
(对立事件 A 与 A 之一),在每次试验中,A 发生的概率都是 π (因而其对立事件 A 发生的
概率都是 1- π ),则称这一串独立、重复试验为 n 重伯努利试验,简称伯努利试验。

二项分布是一种离散型概率分布。参数 n 称为离散参数,只能取正整数;参数 π 是事件 A


发生的总体概率。

二项分布概率特点:
1) 二项分布概率之和等于 1.
2) 单侧积累概率
二项分布的均数与标准差:
设 X~B ( n , π ) , 则 阳 性 结 果 发 生 数 X 的 总 体 均 数 为 μ=n π ; 总 体 方 差 为
σ =n π ( 1−π );总体标准差为σ =√ n π ( 1−π )。
2

Poisson 分布:
Poisson 分布可作为二项分布的极限而得到。换而言之,如果 X~ B(n, π ),当 π 很小,而
n 很大时,可以认为 X 近似服从 λ=n π 的 Poisson 分布∏ ( λ )。
Poisson 分布特征:
1) λ 是 Poisson 分布的唯一参数,它表示单位时间(或单位面积、单位空间)内某随
机事件的平均发生数,即总体数。给定总体均数 λ , 按照 Poisson 分布的概率计算
公式可以求得概率 P(X=k),K=0,1,2,…,从而得到对应的 Poisson 分布图形。
由图可看出λ 值越小分布越不对称,随着λ 的增大,Poisson 分布趋于对称。
2) 总体均数与总体方差相等。即λ = σ 2;
3) 当λ = 20 时,Poisson 分布接近于正态分布;当λ = 50 时,可以认为 Poisson 分布呈
正态分布。
4) Poisson 分布具有可加性。
a) 若 m 个相互独立的随机变量 X 1 , X 2 , , … , X m分别服从参数为 λ 1 , λ2 , … , λm 的
Poisson 分布,则其和 X 1 + X 2 ,+ …+ X m服从均数为 λ 1+ λ2 +…+ λ m的 Poisson
分布。
b) 应用中常利用 Poisson 分布的可加性,将若干个互相独立的小观察单位合并成
一个大观察单位,从而使均数 λ ≥ 20,以便服从 Poisson 分布的资料按正态近
似处理。
常见 Poisson 分布的随机变量:①人群中某种患病率很低的非传染性疾病发病数或死亡数;
②每升饮水中大肠杆菌数;③计数器小方格中的血细胞数;④单位空间中的粉尘数;⑤医
院门诊单位时间内就诊的患者数等;⑥放射性物质单位时间内放射的粒子数,⑦地震、火
山爆发、特大洪水等天灾事故、⑧交换台的电话呼唤次数等,也服从 Poisson 分布。
不服从 Poisson 分布的是:①一些具有传染性的罕见疾病的发病数;②单位时间内、单位面
积或单位容积内,所观察到事物由于某些原因分布不均匀(如细菌在牛奶中击落存在)时,
亦不呈 Poisson 分布。

参数估计

中心极限定理:当有足够样本含量(如n ≥ 30)时,从任何总体中随机抽取样本的样本均
数近似地服从正态分布,样本含量越大, X 抽样分布越接近于正态分布。
解释:如果总体原本就是正态分布,那么对于所有 n 值,抽样分布均为正态分布。如果总
体为非正态分布,仅在 n 值较大的情况下, X 近似服从正态分布。一般说n ≥ 30时的抽样分
布近似为正态分布;但是,如果总体分布极度非正态(如双峰分布,极度偏锋分布),n
值很大很大时, X 才近似服从正态分布。

标准差( S) 标准误( S X , S p , SEM )


含 离均差平方的算术平均数的平方 均数的标准差,是描述均数抽样分布的离散程
义 根,即方差的平方根 度及衡量均数抽样误差大小的尺度,反映的是
样本均数之间的变异
反  它反映组内个体间的离散程  标准误用来衡量抽样误差。
映 度;  标准误越小,表明样本统计量与总体参数
 一个较大的标准差,代表大 的值越接近,样本对总体越有代表性,用
部分数值和其平均值之间差 样本统计量推断总体参数的可靠度越大。
异较大;一个较小的标准 因此,标准误是统计推断可靠性的指标。
差,代表这些数值较接近平
均值。
样 样本含量越大,标准差越稳定 样本含量越大,标准误越小。


参数估计分为点估计和区间估计
点估计没有考虑到标准误,不能反映抽样误差的大小。
区间估计——置信区间

置信区间 参考区间
概念 按事先给定的(1−α )来 大多数个体观测值的范围,
估计包含位置总体参数的一 通常用 95%或 99%表示“大
个区间范围,该范围称为参 多数”,有 5%或 1%的个体
数的置信区间。 除外,一般地记为(1-α )
实际含义 如果从一个个总体中重复抽 指在同质的前提下排除了足
取 100 份样本含量相同的独 以影响所测指标的因素(包
立样本,每份样本分别计算 括疾病)的个体。
1 个置信区间,在 100 个置
信区间中,大约有 95 个置
信区间覆盖总体均数,大约
有 5 个置信区间不覆盖总体
均数。对于某一次估计的置
信区间,我们总宣称这个区
间覆盖了总体均数,但不一
定是真的覆盖了总体均数,
于是我们补充一句,置信度
为 95%。
范畴 统计推断 统计描述
用途 估计未知总体参数所在范围 供判断观察个体某项指标是
否“正常”时参考
计算公式 正态分布,σ 未知: 正态分布: X ± Z α /2 S ;
X ± t α /2 , v S x ; 非正态分布:[
非正态分布,但 P100 α / 2 , P
100(1− ) ]
α
n ≥ 30 , 有 X ± Z α /2 σ X 或 2

X ± Z α /2 S X
单变量统计方法:

定量资料和定性资料的比较
定量资料 定性资料
两独立样本定量资料的比较: 两 组 独立二分类资料的比 较
t 检验 : X 2 检验(不校正与校正)
校正的 t 检验(方差不齐) *
Wilcoxon 秩和检验 Fisher 确切概率法*
配对设计定量资料的比较: 配 对的两 组 二分类资料的比
配对设计资料的 t 检验 较:
配对设计资料的符号秩和检验 配对 X 2 检验*
多组独立样本定量资料的比较: 多组独立多分类资料的比较:
2
方差分析 无序多分类资料: X 检验*
Kruskal-wallis(H 检验) 有序多分类资料:秩和检验
* 频数分布的差异性检验
其余为实验效应(总体均数、总体中位数)的比较检验

先分析数据类型:定量资料(如年龄)?定性资料(如家庭人口,电器数量等)?
定量资料:连续型定量资料?离散型定量资料?
定性资料:二分类资料?无序多分类资料?有序多分类资料(等级资料)?

对定量资料前提条件假设:正态性?符合则进行均数( X )以及标准差( S)的统计描述,


之后计算总体置信区间以及进行 t 检验或方差分析以比较总体均数;不符合则进行中位数
( M d )和四分位数间距(Q 25−75),之后进行秩和检验。

对分类资料:先行统计描述(率、构成比、相对比),之后对总体率的置信区间进行估计,
并进行 X 2 检验以对实际值与期望值进行比较。

PS:变量类型的转换(单向,不断损失信息):
连续定量资料 → 有序多分类资料 → 无序 → 二值
(补充:统计推断常见的错误:假阳性率(α )以及假阴性率( β )
资 料 分解 优点 缺点
设 计
类型
完 全 总变异=组间变异+ 统计分析简单 实验效能低,易受非实验因素
随 机 组内变异 影响。
设计
配 对 - 降低个体差异对测量结 如果随意选取一个非试验因素
设计 果的影响,从而减小实 作为配对条件,而不是选择对
验误差,提高实验效 观测结果影响最大的因素,则
率。 效能不佳
随 机 总变异=处理变异+ 可对非实验因素进行均
区 组 区组变异 衡化,增加实验可比性
设计
交 叉 总变异=个体间变异 每个个体接受两种处 不适用于具有自愈倾向的或病
设计 (处理+时间)+个 理,节约样本含量; 程短疾病的研究;
体内变异 平衡实验顺序对结果的 两种处理之间应有足够长的洗
影响。 脱期。
析 因 总变异=A 主效应+B 同时 进 行多因素 /多水
设计 主效应+AB 交互效应 平分析;
可对交互效应分析
重 复 总变异=处理变异+ 可减少样本含量; 有数据缺失时增加了统计的困
测 量 时间变异+时间*处 可考察指标随时间推移 难;
设计 理交互效应(?) 的动态变化趋势。 在同一受试者身上不同时间点
测量结果常有关联——需采用
较复杂的统计分析方法

参数检验和非参数检验的区别与优缺点
参数检验 非参数检验
1.偏态分布资料和未知分布总体
正态分布 2.总体方差不齐
适用条件
方差齐性 3.等级资料
4.开口资料(端点无确定值)
1.Wilcoxon 符号秩和检验
1. 配对样本 t 检验
(配对资料)
2. 两独立样本 t 检验
2. Wilcoxon 秩和检验
检验方法 3. 方差分析
(两组独立资料)
(多组独立定量资料)
3.Kruskal-wallis(H 检验)
4. 单组样本 t 检验/Z 检验
(多组独立资料)
充分利用信息(原始数
只利用秩次(损失信息)
据)
优缺点 不受分布限定、自由
受总体分布限定
检验效能低
检验效能高
分类 基本思想 使用情况 注意 特点
参 T 检验 单样本 t 检验 小样本均数与 可用于完全随机 小样本时:要 是双侧检
数 两独立样本 t 总体均数的比 设计两样本定量 求正态分布、 验;自由
检 检验 较; 资料的假设检验 方差齐性,否 度越大则
验 配对样本 t 检 两总体均数的 则需要使用校 其形状越
验 比较。 正的 t 检验、 高(越集
校正 t 检验 变量变换、秩 中);
和检验。
方差分析 单因素方差 把全部观察值 两个或两个以上
分析 间的变异—总 总体均数的比
多因素方差 变异按设计和 较;也可分析两
分析 需要分解成两 个或多个研究因
随机化区组 个或多个组成 素的交互作用及
方差分析 部分,再做分 回归方程的线性
重复测量设 析。 假设检验等。
计的方差分

非 ( Pearson ) 四 格 表
参 卡方检验 (2x2)
数 配对四格表
检 ( McNemar
验 检验)
RxC 列联表的
卡方检验
秩和检验 Friedman 秩 基于秩次提供
和检验; 的信息,对不
Wilcoxn 符 号 同总体的平均
秩和检验 水平(位置)
进行假设检验
Kruskal-Wallis
检验
U 检 验
( Mann-
Whitney 检
验)
关 简单相关 Pearson 相
联 关;
性 Spearman 秩
分 相关

简单线性回归
多重线性回归
Logistic 回归
Cox 回归 生存曲线

t 检验:小样本均数与总体均数的比较;两总体均数的比较。

方差分析

方差分析基本思想:
把全部观察值间的变异—总变异按设
计和需要分解成两个或多个组成部分,
再做分析。
组间变异:反映各组间均数的差异,
即各组间均数与总均数的差异,该变
异主要是处理因素的作用。
组内变异:完全是各组内个体间的差
异,体现为每个数据与该组均数的差
异,因此可以认为是随机误差,又称
误差变异。

Q:为什么选择均方而不用离均差平方和比较变异?
A:因为组间变异和组内变异自由度不同,没有可比性。因而需要将两种变异除以各自自由
度,表示平均变异指标。

随机区组的方差分析 F 统计量:
若 F 大于某一临界值,则 P 小于检验水准,拒绝零假设,有统计学差异;
若 F 小于某一临界值,则 P 大于检验水准,不拒绝零假设,认为没有统计学差异。

方差分析用途:
(1) 能用于两个或多个以上总体均数的比较;
(2) 还可以分析两个或多个因素的交互作用;
(3) 对回归方程的线性进行假设检验

两两比较:
表 5 四种常用的均数间两两比较方法
均数间两两比较方法 用途
LSD 根根据专业知识,事先指定某些组均数间的比较(敏感)
经假设检验得出多个总体均数不全等后,
Bonfferoni
进行的两两比较(最为保守)
经假设检验得出多个总体均数不全等后,
SNK
进行的两两比较(探索性)
多个组均数与指定组均数的比较
Dunnett-t
(如多个处理组与对照组的比较
方差分析分为:
1. 完全随机设计的方差分析——单因素方差分析
2. 随机区组方差分析
a) 配对设计
b) 析因设计
c) 交叉设计
d) 重复测量设计

数据变换:
1. 对数变换:适用于
a) 对数正态分布资料,如抗体梯度资料,疾病潜伏期,食品、蔬菜、水果中农
药的残留量等;
b) 标准差与均数成比例,或变异系数接近甚至等于某一常数的资料;
2. 平方根变换:适用于方差与均数成比例的资料,如服从 Poisson 分布的资料。
3. 平方根反正弦变换:适用于百分比数据资料。

各种方差分析分解思想的比较:

完全随机设计是仅根据处理不同而分组,是单因素方差分析,总变异=处理变异(组间变
异)+误差(组内变异); v=k −1
随机区组设计资料的方差分析:先根据某种相同或相似的性质分成 b 个区组,再将区组中
个体随机分配到 k 个组中。总变异=处理(组间变异)+区组(区组间变异)+误差(个体差
异)。
析因设计资料的方差分析:如有 k≥2 个实验因素(如试验药物 A、 B),每种因素有 m≥2
个水平(如服药、 不服药),若 k 个实验因素的 m 个水平同时施加于受试对象, 则这样
的试验方案称为k × m析因设计。若为四格表(A*B)则
总变异=A 主效应+B 主效应+A*B 交互效应+误差

交叉设计资料的方差分析:总变异=顺序主效应(个体间)+处理主效应(个体内)+阶段主
效应+误差(个体间+个体内)
重复测量设计资料的方差分析:总变异=处理主效应(个体间)+时间主效应(个体内)+时
间*处理交互效应(个体内)+误差(个体间+个体内)
析因设计:是一种较常用的多因素实验设计(不同于完全随机设计——单因素设计);
当试验因素和水平不多时,可以考虑使用析因设计,获得更丰富的信息。
研究问题复杂时,可以使用“不完全设计”,但对统计分析要求更高。

析因设计优点:
(1) 全面、高效性:均衡地对各因素的不同水平进行全面组合;
(2) 获得信息多:可考察各试验因素的主效应和交互效应;
析因设计缺点:
(1) 所需试验组数多,尤其是处理因素或水平较多时设计复杂;
(2) 相对于主效应的检测,交互作用的检测对样本量的要求更高;
(3) 当两种干预对结局的作用机制相似或相近时,析因设计不是一个很好的选择,此
时,可能因为“天花板效应”,产生统计学上的“交互作用”。

其他设计类型资料的方差分析:
1. 协方差分析(回归与 ANOVA 相结合)。
2. 拉丁方设计(三因素,且各因素的水平数相同)
3. 正交设计(析因设计的扩展,牺牲部分交互作用的探索,依照正交表安排实验)
4. 裂区设计(处理 1 作用于个体间、处理 2 作用于次级单位,需要不同的 Ei)
协方差分析的基本思想:
是把直线回归法与方差分析法结合起来的一种方法。其目的是要把与 y 呈直线关系的 x 化
成相等后,再来检验各组 y 均数(即修匀均数)间差别有无统计学意义。
由于协方差分析消除了各组 x 不同所产生的的影响,在对 y 的均数作比较,因此,结论更
为合理。
协方差分析的应用条件:
1. 正态性;
2. 方差齐性;
3. 个总体中因变量与协变量间具有直线回归关系;
4. 个回归系数居于相同水平

X
2 检验

2
X 检验的基本思想:
2 2
X 值反映了在原假设成立的前提下, 实际频数与理论频数的吻合程度,  X 值越大,二
者差异越大,越有理由拒绝原假设。

2 检验可以做单侧检验吗?
2 检验中,为什么只用2 分布的右侧尾部面积 ?

1) 若 H 0成立,则实际频数与理论频数的差距会比较小,因此卡方值也会比较小,最小
值为 0;
2) 若 H 0不成立,不管实际频数与理论频数谁大谁小,差距都会比较大,即卡方值会比
较大, 极端的情况只可能出现在右端。
3) 当卡方值大到一定程度时,认为 H 0不成立,可把右侧尾部看做是拒绝域。
因此,卡方检验为双侧检验,但查表时只看卡方分布的右侧尾部面积(卡方检验不能
进行单侧检验)。
McNemar 检验与独立样本资料的四格表的主要区别之处:
1、 行合计与列合计事先均不确定;

2、 格子中的数字表示的是对子数。

2 检验条件:
资料类型 应用条件 公式 备注
独立的两组 不 校 正 n≥40 , 所 如果 n< 40,或有
二分类资料 有 T≥5 时 T< 1 时,用精确概
(四格表) 率法
校 正 n≥40 , 若 有
1≤T< 5 时
配对的两组 不校正 b + c≥40 配对设计有专用的
二分类资料 公式
McNemar 检验 校正 b + c< 40

R×C 不能有 1/5 以上的 处理方法:


列联表资料 格子中的理论频数 1.增大样本量
小于 5,或者不能 2.合并行或列
有一个格子的理论 3.精确概率法

数小于 1。

R×C 列联表理论频数不满足2 检验的要求时,可考虑选择如下方法处理:


1. 增加样本含量,这是最好的方法,但可行性差;
2. 结合专业知识考虑是否可以将该格所在行或列与别的行或列合并,是否可以合并要根据
样本的专业特性来确定,合并后会损失信息;
3. 改用 Fisher 精确概率法。
秩和检验

什么情况下应用秩和检验呢?
若结局变量为多分类有序变量, 且希望比较各组患者在结局上的等级之间的差别是否具有
统计学意义时, 需要选用秩和检验。
秩和检验:基于秩次提供的信息,对不同总体的平均水平(位置)进行假设检验。
秩和检验的基本思想:首先将原始数据从小到大,或等级从弱到强转换成秩后,再对基于
秩次的统计量(如秩和),进行检验,做出统计推断。故又称基于秩次的非参数检验。

不同资料的秩和检验:
资料类型 秩和检验
两独立样本资料(定量/等
Wilcoxon 秩和检验
级)
配对样本资料 Wilcoxon 符号秩和检验
多组独立样本资料(定量/等
Kruskal-Wallis (H)检验
级)

关联性分析

关联性分析(线性关联的程度和方向,双变量正态分布 Pearson,非正态分布 Spearman)


简单相关:一般的,两个连续变量间的线性关系称为线性相关,又称简单相关。
关联:两个分类变量之间的联系。
相关的种类:正相关、负相关、零相关、非线性相关(散点呈曲线)
关联强度指标:相关系数 r,区间(-1,1).
Pearson 相关:两个连续型随机变量间的相关分析。两变量分别以 X,Y 表示,如果 X 与 Y
均是随机变量,呈双变量正态分布,散点图呈线性趋势,各观测值间相互独立,则可以用
Pearson 积矩相关系数来描述两者间的关系,简称相关系数。
Pearson 相关前提条件:①资料为两连续随机变量;②双变量正态分布;③散点图呈线性;
④独立
总体相关系数 ρ 特点:①无量纲,区间[-1,1];②>0 为正相关,<0 为负相关;③|ρ|越接近 1
则相关性越好,接近 0 则相关性差。
对 相 关 系 数 假 设 检 验 : t 检 验 , 自 由 度 v=n−2,
|t |越大,概率 P 越小 ,反之, P 越大。
Pearson 积矩相关系数的区间估计:反双曲正切变换以及双曲正切变换。
在 excel 中表现为
关联性分析步骤:
①绘制散点图看有无线性关系,正 or 负相关;
②按公式计算 Pearson 相关系数 r;
③进行关联的假设检验,零假设为总体相关系数 ρ=0,进行 t 检验;
④计算总体相关系数 ρ 的 95%置信区间。
Spearman 秩相关:X,Y 不服从双变量正态分布或总体分布类型未知,或数据本身具有不
确定性,或为等级资料,则可采用秩相关或等级相关来刻画两变量相关的程度和方向。
Spearman 秩相关基本思想:将原始数据转换为秩次。将两变量 X,Y 成对的观测值分别从小
到大排序编秩,以
pi 表示Y I 秩次,观测值相同的取平均秩;计算公式仍采用 Pearson
相关系数的公式,但以秩次 pi 、 q i 代替原始数据 X i 、 Y i。用秩次计算得到的相关系
数称为 Spearman 秩相关系数或等级相关系数,用统计量r S表示。
对总体秩相关系数进行假设检验——查r S界值表(n ≤ 50); t 检验(n ≥ 50)
相关的解释要点:
①不能下因果关系的结论;
②若经检验不能拒绝 ρ=0的假设则先看样本量是否足够,其次看散点图是否为曲线关
系(考虑换模型),再看是否应该对资料进行分层分析等。若还是不能深入分析,则下结
论“据目前数据尚不能认为两变量呈线性相关”;
③异常点:首先核对是否录错数据,再在剔除前后分别作一次分析,并在报告结果时
特别说明对异常点做的处理。
2
分类变量间的关联分析——得频数资料(列联表)作关于两种属性独立性的 X 检验。
1. 零假设为两种属性互相独立;备择假设为两属性互相关联。
2. H 0 成立时,统计量服从 X 2 分布。

3. 若存在关联,则采用关联系数确认关联程度。 r =
√ X2
2
X +n
, 对于 2x2 列联表,关

联系数 r 介于0 和 √ 0.5之间,其数值越大,关联程度越高;总体关联系数是否等


于 0 的假设与对两种属性独立否的检验等价。
4. 2x2 配对资料关联性分析注意:配对设计的此种资料类型既可进行频率的比较,
又可进行关联性分析,资料的整理完全一致,但由于分析目的不同,计算方法也
不同:进行频率的比较时,McNemar 检验法仅对配对中不一致的数据进行检验。
5. 前提条件:少于 1/5 格子的理论频数¿ 5;少于 1 个格子的理论频数¿ 1.
6. 若为两个有序多分类变量,则可用 Spearman 分析。
简单线性回归

线性回归采用了方差分析的思想。
为什么线性回归的自由度 v=n−2? 因为必过点( X ,Y )。

线性回归的前提条件:LINE
线性(Linear):Y 与 X 呈线性变化趋势时,X 依次增加或减少一个单位,Y 的平均改变量保
持不变。(散点图、残差图);
独立(Independence):.任意两个观测值相互独立。(专业知识、Durbin-Waston 值接近于
2)
正态(Normal):在给定 X 值时,Y 的取值服从正态分布,与此正态性要求等价的是残差
服从正态分布。(残差图、正态概率图、残差直方图)
等方差(Equal variance):指对应不同的 X 值,Y 值的总体变异相同。(残差图)

简单线性回归是指只包含一个自变量,且呈线性变化趋势的线性回归模型,用以描述因变
量的总体均数与自变量之间的线性关系,亦称两变量间的依存变化关系。在实际应用中,
两变量之间的关系应有实际意义,不要把毫无关联的两种现象作回归分析。

简单线性回归的基本步骤:①绘制散点图,考察两变量是否有线性趋势及可疑的异常值;
②估计回归系数与截距;③对总体回归系数(t 检验)或回归方程(方差分析)进行假设检
验;④列出回归方程,绘制回归直线;⑤统计应用(预测和控制)。
在简单线性回归模型中,由于只有一个自变量,回归模型的方差分析等价于对回归系数 t 检验,且t= √ F。
对于服从双变量正态分布的同一组资料,若同时做了相关分析和回归分析,则相关系数的 t 检验与回归系
数的 t 检验等价。
简单线性回归方差包括截距和回归系数两个参数,通常采用最小二乘估计。回归分析的假
设检验分两种情况,分别是针对总体回归方程的方差分析,和针对总体回归系数的 t 检验。

通过对 Y 的总变异分解有助于理解简单线性回归分析的基本思想,即 Y 的离均差平方和(


SS总)分解为回归平方和( SS回归)和残差平方和( SS残差)。
线性回归的主要用途为预测与控制。在实际应用中,要注意回归方程不可随意外延,即简
单线性回归方程的适用范围一般以自变量的取值范围为限,除非有充分理由证明在此范围
外依然有效,否则预测或控制不宜超出此限。
当两变量变化趋势为非线性时,可考虑拟合非线性回归方程,常用的曲线包括指数曲线、
多项式曲线、双曲线和 logistic 曲线等。

总体回归系数的区间估计:
b±tα Sb
, ( n−2)
2

PS: Sb 为样本回归系数的标准误,可直接由 SPSS 得到。

均值的置信区间计算:
^
 当 X 为某定值时,Y 的均数(1-α )置信区间为:Y ± t α , ( n−2) S ^Y
2

^
 个体值 Y 的预测区间:Y ± t α , ( n−2) S ^Y
2

√ √ √
2 2
SS 残差 1 ( X i −X ) 1 ( X i−X ) )
( SY ∙ X = , S Y^ =S Y ∙ X + , S =S 1+ +
n−2 n ∑ ( X −X )2 Y Y ∙X
n ∑ ( X−X )2
当n 相当大, X i 离 X 非常接近时, SY ≈ S Y ∙ X
^ 的标准误; SY 是Y 的标准差。
PS: SY ∙ X 是回归的残差标准差。 S Y^ 是Y

注意:均数的置信区间与个体值的预测区间意义不同,前者是 X 取某一定值时,Y 的总体


均数所在范围;后者是 X 取某一定值时,Y 的可能范围。

两变量不是线性关系时怎么办?
对血药浓度与时间效应曲线、生长曲线、剂量反应关系等,可采用曲线拟合的方法。
1. 指数曲线:又称指数生长曲线,双变量资料中,当自变量 X 增加时,因变量 Y 随
之增加(或减少)得更快。
2. 多项式曲线:加入二次、三次多项式,适合标准曲线的绘制。
3. logistic 曲线:又称 Pearl-Reed 曲线,呈拉长的 S 形曲线,多用于发育、动态率、
剂量反应关系以及人口等方面的研究。
4. 双曲线:适用于弯曲程度比指数曲线还大的资料,如肌肉张力、神经生理方面强
度间期数据的分析。

抽样调查研究

抽样方法:
1. 概率抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样;
2. 非概率抽样:方便抽样、判断抽样、配额抽样、雪球抽样等。
3. 概率抽样:保证总体中每个观察单位有同等的概率被抽到样本中,随机性好,代表
性强。

抽样方法:
1) 单纯随机抽样:先编号、再抽签或随机数字法。优点:易于估计误差。缺点:总体大
时编号困难,且在个体差异大、抽样比例较小时所得样本的代表性较差。
2) 系统抽样:将总体中个体的编号(如学号、门牌号)按照某种确定的规则(抽样间隔
确定)抽取,又称机械抽样。优点:简单、省时;抽样误差小于随机抽样。缺点:当
观察单位间存在某种趋势(如周期性变化)时,可能产生偏倚。
3) 分层随机抽样:先将总体中所有观察单位按照主要特征(如年龄、性别、病情等)分
为若干层,然后在各层中进行随机抽样,又称类型抽样。要求:层内个体差异越小越
好,层间差异越大越好。根据各层抽取数量的不同,分为比例分层法和最优分层法。
优点:抽样误差最小,各层可独立分析,层间可进行比较。缺点:分层较多时,调查
和分析较麻烦。
分层随机抽样——比例分层法&最优分层法
a) 比例分层法:大层多抽,小层少抽。各层样本含量与该层单位数量成比例。
b) 最优分层法:大层多抽,变异度大也多抽。各层样本含量既与该层单位数量呈正
比,又与该层内变异度的大小成正比。

4) 整群抽样:以群体为基本单位抽样。“群”间差异小、抽取的“群”多,则样本的代
表性好。优点:便于组织和质量控制,由于在同一地区进行调查工作,可节省人力、
物力和财力。缺点:抽样误差大。
5) 多阶段抽样:可与上述四种方法联合使用。将整个抽样过程分为若干阶段进行抽样的
方法。

抽样误差排序:
整群抽样 > 单纯随机抽样 > 系统抽样 > 分层随机抽样

实验研究设计

干预性研究的设计:
1、 实验设计的基本步骤:
1) 受试对象的选择;
2) 样本含量的确定;
3) 如何设定合适的对照组;
4) 确定拟考察的实验因素;
5) 采取科学方法对受试对象分组;
6) 确定合适的实验设计类型;

2、 实验设计的三要素:
1) 受试对象: 纳入标准和排除标准
2) 试验因素:控制重要和非试验因素(其他)
3) 实验效应:客观指标和主观指标;灵敏度和特异性;准确和精密

3、 实验设计的四原则:
1) 对照
i. 空白对照:对照组不施加任何措施。
ii. 标准对照:现有的公认的经典治疗方法或标准治疗方法;或以现有的标准值
或正常值作为对照。
iii. 自身对照:对照与实验在统一为受试者身上进行。
iv. 相互对照:有时需要考察的因素不能取零水平(如反应温度等),使其在不
同该条件下实验,从而互相对照。
v. 实验对照:仅含非实验因素的实验组(操作相同,但不含试验因素的对照) ,
如仅注射生理盐水的对照组,此时若为空白对照则不予注射。
vi. 安慰剂对照:为排除心理活动对受试者疾病发生、发展及预后的影响,对照
组受试者给予无药理活性的安慰剂。(与实验对照区别是安慰剂针对心理,
即表面相同)
vii. 历史对照(一般不宜采用):以历史资料作为对照。

2) 重复:重复实验、重复取样、重复测量。可见准确性。

3) 随机:使实验组与对照组在非实验因素的分布方面尽量保持均衡一致。降低系统
误差的影响,贯穿于设计和实施全过程(样本代表性、组间可比性、排除实验顺
序影响)

4) 均衡:使试验组与对照组之间的非实验因素力求均衡一致——使可比
Q:随机和均衡区别?

4、 实验设计方案:
1) 完全随机设计:设计和统计分析都比较简单,但试验效率较低,只能考察一个因
素对观测结果的影响情况。
2) 配对设计:优点:能有效降低来自个体差异对观测结果的影响,从而减小实验误
差,提高试验效率。但配对的条件应当是本实验研究中对观测结果有重要影响的
非试验因素,不能随便选取一个非试验因素作为配对条件。
3) 随机区组设计:是在单因素设计的基础上,多考虑一个区组因素。区组因素反映
了受试对象在重要条件上的差异,若不将其排除,必然会影响实验因素各水平之
间差别大小的正确评价。
4) 交叉设计(Cross-over design):成组交叉设计和配对交叉设计(较前者好)。
i. 优点:①每个个体均接受两种处理,控制个体差异,节约样本含量; ②平衡
实验顺序对结果的影响。
ii. 缺点:①时间长,不适用于具有自愈倾向或病程短的研究; ②两种处理之间
应具有足够长的洗脱期;③数据缺失会增加统计的困难。
iii. 应用:①药物在短期内有效(如一到两周内);②药效不持久(没有剩余效
应)。

5) 析因设计(Factorial design):实验中涉及 k(k ≥ 2)个实验因素时,若将这 k 个


因素全面和,设组合数为 m,便有 m 个不同的实验条件,若这 m 个实验条件同时
实施,不分顺序,且各个因素对观测指标的影响地位平等,用以分析各试验因素
以及它们相互配合的效应,则成为析因设计,或全因子设计。
i. 是一种比较常见的多因素实验设计。因素和水平数不多时,可以考虑使用析
因设计。
6) 重复测量设计(Repeated measure design):按实验分组因素将受试对象分为若
干个组,每一组受试对象接受一种特定的处理;在几个不同的时间点上从同一受
试对象(或样品)身上重复获得变量的挂测值,这种安排实验的方法称为重复测
量设计。
i. 可以减少样本含量;
ii. 可考察指标随时间退役的动态变化趋势;
iii. 缺点:在同一受试者身上,不同时间点测量结果常有关联——需采用较复杂
的统计分析方法

5、 “四原则”要点?
1) 随机原则:严格按照随即原则分配受试对象,根据实际具体情况试实施最合适的
随机化(如分层随机)。
2) 对照原则:必须设置合理对照组,通常是多种对照形式共存。
3) 重复原则:基于一定的先验知识和控制两类错误率的上限,合理地估计出所需要
的样本含量。
4) 均衡原则:从考虑“三要素“开始到落实随机、对照、重复三个原则为止的全过
程种,每一个环节都应尽可能做到均衡,使一切非实验因素对各组的影响基本一
致。

6、 样本量的估算——比较两组测定值的均数
1) 预计欲比较的量总体参数的差值δ ;
2) 预计总体标准差σ ;
3) 允许出现假阳性结果的机会α ;
4) 允许出现假阴性结果的机会 β 。

比较两组发生某结局的百分比
(1) 预计一个组发生某结局的百分比约为1
(2) 预计另一组发生某结局的百分比约为2
(3) 允许犯假阳性错误的机会
(4) 允许犯假阴性错误的机会

Logistic 回归

logistic 回归参数估计:
1. 最大似然法:统计量为lnL

L0
2. 回归模型的假设检验——似然比检验,统计量为 G。 G=−2 ln ( ),( L0 < L1
L1
)G 值越小越好,则模型的拟合效果越好。其中, L0对应 H 0 的最大似然, L1对应于
H 1的最大似然。

注意: L0和 L1都是小数,且 L0 < L1,因而 ln L0和 ln L1都是负数,且 ln L0< ln L1,从而

−2 ln L0 >−2 ln L1.可以证明,当样本含量较大时,在 H 0成立的条件下,G 近似的服

从自由度为 m 的 X 2 分布。若 X 2 值远大于自由度为 m 的 X 2 分布临界值,或 P 值很小,


则拒绝 H 0,可认为含有 m 个自变量的 logistic 回归模型成立。
3. 似然比检验可以用于比较两个变量个数不同的模型。设m 0和m 1分别为变量较少的模型
和变量较多的模型的变量的个数,m 0 <m 1.
H 0 :变量较少的模型成立; H 1 :变量较多的模型成立
当样本含量较大时 ,在 H 0成立的条件下, G 近似地服从自由度m1−m0的 X 2 分布。
若 X 2 值远大于自由度为m 1−m 0的 X 2 分布临界值,或 P 值很小,则拒绝 H 0,采纳变量

较多的模型;否则,不拒绝 H 0 ,采纳变量较少的模型。
4. 回归系数的假设检验——Wald,若 Wald X 2 值远大于自由度为 1 的 X 2 临界值,则拒绝
H 0,可认为 β i ≠ 0
5. 拟合优度检验:用于检验所选模型与实际数据的吻合程度,评价模型的预测值与实际
观测值的一致性。
a) 使 用 Hosmer-Lemeshow 检 验 , 实 质 为 比 较 实 际 观 察 聘 书 与 模 型 理 论 频 数 的
Pearson X 2 检验。
b) 若得到的检验统计量的数值远小于相应自由度的 X 2 分布临界值,或 P 值较大,则
可认为模型拟合较好。
c) 除 Hosmer-Lemeshow 检验,Pearson 检验(Pearson test)和偏差检验(deviation
test)也常用来进行拟合优度检验,且三者均以 X 2 检验的基本原理为基础,一般
结果相近。
6. Logistic 回归自变量的筛选:类似于多重线性回归,有前进法、后退法和逐步法等,检
验统计量不同于多重线性回归,为似然比检验。
7. 注意:
a) 由于病例-对照研究中,病例与对照的比例都是人为定好的,不能代表自然人群中
真是的病例与对照的比例。上述常数项并不是各个自变量取值为 0 时人群患病优
势估计的对数,因此这里的常数项没有实际意义,该回归模型不能直接在人群中
用于预测。如果希望将该模型用于预测,需要知道人群中的真实患病率,对常数
项进行校正,具体公式还需自行查阅。
b) Logistic 回归适用情况:
i. 队列研究
ii. 病例-对照研究
iii. 横断面研究等
8. 多分类 Logistic 回归——无序、有序
9. Logistic 回归两个主要用途:
a) 影响因素分析,求出各自变量对应的 OR 值;
b) 可以求出因变量各类发生的概率用于预测。
10. 条件 logistic 回归:因为常数项被约掉了,因而不能作预测,只能用于危险因素分析。

随机对照试验——CONSORT
观察性研究——STROBE
系统综述和 meta 分析——PRISMA
诊断精确性研究——STARD

Youden 指数,越接近于 1 越好(此时真阳性率为 100%,假阳性率为 0)


粗一致率,又称准确度
灵敏度和特异度为常数时,对于较大的患病率,阳性预测值越高预测价值越高;
阳性似然比,值越大其证实疾病的能力越强;阴性似然比,值越小则排除疾病的能力越强。

You might also like