Professional Documents
Culture Documents
统计复习资料
统计复习资料
目录
统计描述..................................................................................................................................1
参数估计..................................................................................................................................3
单变量统计方法:...................................................................................................................5
方差分析..................................................................................................................................9
X 2检验..................................................................................................................................11
秩和检验................................................................................................................................13
关联性分析............................................................................................................................14
简单线性回归........................................................................................................................15
抽样调查研究........................................................................................................................17
实验研究设计........................................................................................................................18
Logistic 回归............................................................................................................................20
统计描述
定性资料的统计描述
使 用
指标 意义 特点
情况
二 分
反映某一种只有两种可 分子是分母的一部分;无
类 资
率(Frequency) 能结局的事件中,某个 量纲;在[0,1]取值。
料;
Actual numb关心结局出现的机会大 注意:几个事件的率相加
或 多 Frequency=
Posibal total小,即阳性率、携带率
numb 不得 1,除非是同一事件
分 类
等。 中的所有可能结局之和。
指标
多 分 反映某事件发生的数量
类 资 构成比(Intensity, Rate) 占所有统计事件发生数 求和为 1
料 量的比例
A 和 B 可以是绝对数,也
相对比(Ratio) 某段时间内某现象发生
复 合 可以是相对数;A 和 B 的
A 的频率
指标 Ratio= 量纲可以不同,也可以相
B
同,但 A 和 B 互不包含。
强度指标——率
强度是流行病学、统计学术语;(常见单位:人年)
相对危险度(OR)——相对比的一种:
暴露于某危险因素的发病率与未暴露于该危险因素的发病率之比。
相对比的注意事项:
1. 防止概念混淆
2. 计算相对数时分母不宜过小
3. 观察单位数不等的几个相对数,不能直接相加求其平均水平
4. 相对数间应注意可比性
概率分布
二项分布:
二项分布特点:
1) 每次试验只有两种互斥的结果
2) 为找到这些试验结果的规律性,通常需要在相同条件下独立重复做 n 次。
3) 我们关心 n 次试验结果中阳性结果的数目 X。
伯努利试验:一般地,对于 n 次独立、重复试验,如果每次试验只出现两种对立的结果
(对立事件 A 与 A 之一),在每次试验中,A 发生的概率都是 π (因而其对立事件 A 发生的
概率都是 1- π ),则称这一串独立、重复试验为 n 重伯努利试验,简称伯努利试验。
二项分布概率特点:
1) 二项分布概率之和等于 1.
2) 单侧积累概率
二项分布的均数与标准差:
设 X~B ( n , π ) , 则 阳 性 结 果 发 生 数 X 的 总 体 均 数 为 μ=n π ; 总 体 方 差 为
σ =n π ( 1−π );总体标准差为σ =√ n π ( 1−π )。
2
Poisson 分布:
Poisson 分布可作为二项分布的极限而得到。换而言之,如果 X~ B(n, π ),当 π 很小,而
n 很大时,可以认为 X 近似服从 λ=n π 的 Poisson 分布∏ ( λ )。
Poisson 分布特征:
1) λ 是 Poisson 分布的唯一参数,它表示单位时间(或单位面积、单位空间)内某随
机事件的平均发生数,即总体数。给定总体均数 λ , 按照 Poisson 分布的概率计算
公式可以求得概率 P(X=k),K=0,1,2,…,从而得到对应的 Poisson 分布图形。
由图可看出λ 值越小分布越不对称,随着λ 的增大,Poisson 分布趋于对称。
2) 总体均数与总体方差相等。即λ = σ 2;
3) 当λ = 20 时,Poisson 分布接近于正态分布;当λ = 50 时,可以认为 Poisson 分布呈
正态分布。
4) Poisson 分布具有可加性。
a) 若 m 个相互独立的随机变量 X 1 , X 2 , , … , X m分别服从参数为 λ 1 , λ2 , … , λm 的
Poisson 分布,则其和 X 1 + X 2 ,+ …+ X m服从均数为 λ 1+ λ2 +…+ λ m的 Poisson
分布。
b) 应用中常利用 Poisson 分布的可加性,将若干个互相独立的小观察单位合并成
一个大观察单位,从而使均数 λ ≥ 20,以便服从 Poisson 分布的资料按正态近
似处理。
常见 Poisson 分布的随机变量:①人群中某种患病率很低的非传染性疾病发病数或死亡数;
②每升饮水中大肠杆菌数;③计数器小方格中的血细胞数;④单位空间中的粉尘数;⑤医
院门诊单位时间内就诊的患者数等;⑥放射性物质单位时间内放射的粒子数,⑦地震、火
山爆发、特大洪水等天灾事故、⑧交换台的电话呼唤次数等,也服从 Poisson 分布。
不服从 Poisson 分布的是:①一些具有传染性的罕见疾病的发病数;②单位时间内、单位面
积或单位容积内,所观察到事物由于某些原因分布不均匀(如细菌在牛奶中击落存在)时,
亦不呈 Poisson 分布。
参数估计
中心极限定理:当有足够样本含量(如n ≥ 30)时,从任何总体中随机抽取样本的样本均
数近似地服从正态分布,样本含量越大, X 抽样分布越接近于正态分布。
解释:如果总体原本就是正态分布,那么对于所有 n 值,抽样分布均为正态分布。如果总
体为非正态分布,仅在 n 值较大的情况下, X 近似服从正态分布。一般说n ≥ 30时的抽样分
布近似为正态分布;但是,如果总体分布极度非正态(如双峰分布,极度偏锋分布),n
值很大很大时, X 才近似服从正态分布。
参数估计分为点估计和区间估计
点估计没有考虑到标准误,不能反映抽样误差的大小。
区间估计——置信区间
置信区间 参考区间
概念 按事先给定的(1−α )来 大多数个体观测值的范围,
估计包含位置总体参数的一 通常用 95%或 99%表示“大
个区间范围,该范围称为参 多数”,有 5%或 1%的个体
数的置信区间。 除外,一般地记为(1-α )
实际含义 如果从一个个总体中重复抽 指在同质的前提下排除了足
取 100 份样本含量相同的独 以影响所测指标的因素(包
立样本,每份样本分别计算 括疾病)的个体。
1 个置信区间,在 100 个置
信区间中,大约有 95 个置
信区间覆盖总体均数,大约
有 5 个置信区间不覆盖总体
均数。对于某一次估计的置
信区间,我们总宣称这个区
间覆盖了总体均数,但不一
定是真的覆盖了总体均数,
于是我们补充一句,置信度
为 95%。
范畴 统计推断 统计描述
用途 估计未知总体参数所在范围 供判断观察个体某项指标是
否“正常”时参考
计算公式 正态分布,σ 未知: 正态分布: X ± Z α /2 S ;
X ± t α /2 , v S x ; 非正态分布:[
非正态分布,但 P100 α / 2 , P
100(1− ) ]
α
n ≥ 30 , 有 X ± Z α /2 σ X 或 2
X ± Z α /2 S X
单变量统计方法:
定量资料和定性资料的比较
定量资料 定性资料
两独立样本定量资料的比较: 两 组 独立二分类资料的比 较
t 检验 : X 2 检验(不校正与校正)
校正的 t 检验(方差不齐) *
Wilcoxon 秩和检验 Fisher 确切概率法*
配对设计定量资料的比较: 配 对的两 组 二分类资料的比
配对设计资料的 t 检验 较:
配对设计资料的符号秩和检验 配对 X 2 检验*
多组独立样本定量资料的比较: 多组独立多分类资料的比较:
2
方差分析 无序多分类资料: X 检验*
Kruskal-wallis(H 检验) 有序多分类资料:秩和检验
* 频数分布的差异性检验
其余为实验效应(总体均数、总体中位数)的比较检验
先分析数据类型:定量资料(如年龄)?定性资料(如家庭人口,电器数量等)?
定量资料:连续型定量资料?离散型定量资料?
定性资料:二分类资料?无序多分类资料?有序多分类资料(等级资料)?
对分类资料:先行统计描述(率、构成比、相对比),之后对总体率的置信区间进行估计,
并进行 X 2 检验以对实际值与期望值进行比较。
PS:变量类型的转换(单向,不断损失信息):
连续定量资料 → 有序多分类资料 → 无序 → 二值
(补充:统计推断常见的错误:假阳性率(α )以及假阴性率( β )
资 料 分解 优点 缺点
设 计
类型
完 全 总变异=组间变异+ 统计分析简单 实验效能低,易受非实验因素
随 机 组内变异 影响。
设计
配 对 - 降低个体差异对测量结 如果随意选取一个非试验因素
设计 果的影响,从而减小实 作为配对条件,而不是选择对
验误差,提高实验效 观测结果影响最大的因素,则
率。 效能不佳
随 机 总变异=处理变异+ 可对非实验因素进行均
区 组 区组变异 衡化,增加实验可比性
设计
交 叉 总变异=个体间变异 每个个体接受两种处 不适用于具有自愈倾向的或病
设计 (处理+时间)+个 理,节约样本含量; 程短疾病的研究;
体内变异 平衡实验顺序对结果的 两种处理之间应有足够长的洗
影响。 脱期。
析 因 总变异=A 主效应+B 同时 进 行多因素 /多水
设计 主效应+AB 交互效应 平分析;
可对交互效应分析
重 复 总变异=处理变异+ 可减少样本含量; 有数据缺失时增加了统计的困
测 量 时间变异+时间*处 可考察指标随时间推移 难;
设计 理交互效应(?) 的动态变化趋势。 在同一受试者身上不同时间点
测量结果常有关联——需采用
较复杂的统计分析方法
参数检验和非参数检验的区别与优缺点
参数检验 非参数检验
1.偏态分布资料和未知分布总体
正态分布 2.总体方差不齐
适用条件
方差齐性 3.等级资料
4.开口资料(端点无确定值)
1.Wilcoxon 符号秩和检验
1. 配对样本 t 检验
(配对资料)
2. 两独立样本 t 检验
2. Wilcoxon 秩和检验
检验方法 3. 方差分析
(两组独立资料)
(多组独立定量资料)
3.Kruskal-wallis(H 检验)
4. 单组样本 t 检验/Z 检验
(多组独立资料)
充分利用信息(原始数
只利用秩次(损失信息)
据)
优缺点 不受分布限定、自由
受总体分布限定
检验效能低
检验效能高
分类 基本思想 使用情况 注意 特点
参 T 检验 单样本 t 检验 小样本均数与 可用于完全随机 小样本时:要 是双侧检
数 两独立样本 t 总体均数的比 设计两样本定量 求正态分布、 验;自由
检 检验 较; 资料的假设检验 方差齐性,否 度越大则
验 配对样本 t 检 两总体均数的 则需要使用校 其形状越
验 比较。 正的 t 检验、 高(越集
校正 t 检验 变量变换、秩 中);
和检验。
方差分析 单因素方差 把全部观察值 两个或两个以上
分析 间的变异—总 总体均数的比
多因素方差 变异按设计和 较;也可分析两
分析 需要分解成两 个或多个研究因
随机化区组 个或多个组成 素的交互作用及
方差分析 部分,再做分 回归方程的线性
重复测量设 析。 假设检验等。
计的方差分
析
非 ( Pearson ) 四 格 表
参 卡方检验 (2x2)
数 配对四格表
检 ( McNemar
验 检验)
RxC 列联表的
卡方检验
秩和检验 Friedman 秩 基于秩次提供
和检验; 的信息,对不
Wilcoxn 符 号 同总体的平均
秩和检验 水平(位置)
进行假设检验
Kruskal-Wallis
检验
U 检 验
( Mann-
Whitney 检
验)
关 简单相关 Pearson 相
联 关;
性 Spearman 秩
分 相关
析
简单线性回归
多重线性回归
Logistic 回归
Cox 回归 生存曲线
t 检验:小样本均数与总体均数的比较;两总体均数的比较。
方差分析
方差分析基本思想:
把全部观察值间的变异—总变异按设
计和需要分解成两个或多个组成部分,
再做分析。
组间变异:反映各组间均数的差异,
即各组间均数与总均数的差异,该变
异主要是处理因素的作用。
组内变异:完全是各组内个体间的差
异,体现为每个数据与该组均数的差
异,因此可以认为是随机误差,又称
误差变异。
Q:为什么选择均方而不用离均差平方和比较变异?
A:因为组间变异和组内变异自由度不同,没有可比性。因而需要将两种变异除以各自自由
度,表示平均变异指标。
随机区组的方差分析 F 统计量:
若 F 大于某一临界值,则 P 小于检验水准,拒绝零假设,有统计学差异;
若 F 小于某一临界值,则 P 大于检验水准,不拒绝零假设,认为没有统计学差异。
方差分析用途:
(1) 能用于两个或多个以上总体均数的比较;
(2) 还可以分析两个或多个因素的交互作用;
(3) 对回归方程的线性进行假设检验
两两比较:
表 5 四种常用的均数间两两比较方法
均数间两两比较方法 用途
LSD 根根据专业知识,事先指定某些组均数间的比较(敏感)
经假设检验得出多个总体均数不全等后,
Bonfferoni
进行的两两比较(最为保守)
经假设检验得出多个总体均数不全等后,
SNK
进行的两两比较(探索性)
多个组均数与指定组均数的比较
Dunnett-t
(如多个处理组与对照组的比较
方差分析分为:
1. 完全随机设计的方差分析——单因素方差分析
2. 随机区组方差分析
a) 配对设计
b) 析因设计
c) 交叉设计
d) 重复测量设计
数据变换:
1. 对数变换:适用于
a) 对数正态分布资料,如抗体梯度资料,疾病潜伏期,食品、蔬菜、水果中农
药的残留量等;
b) 标准差与均数成比例,或变异系数接近甚至等于某一常数的资料;
2. 平方根变换:适用于方差与均数成比例的资料,如服从 Poisson 分布的资料。
3. 平方根反正弦变换:适用于百分比数据资料。
各种方差分析分解思想的比较:
完全随机设计是仅根据处理不同而分组,是单因素方差分析,总变异=处理变异(组间变
异)+误差(组内变异); v=k −1
随机区组设计资料的方差分析:先根据某种相同或相似的性质分成 b 个区组,再将区组中
个体随机分配到 k 个组中。总变异=处理(组间变异)+区组(区组间变异)+误差(个体差
异)。
析因设计资料的方差分析:如有 k≥2 个实验因素(如试验药物 A、 B),每种因素有 m≥2
个水平(如服药、 不服药),若 k 个实验因素的 m 个水平同时施加于受试对象, 则这样
的试验方案称为k × m析因设计。若为四格表(A*B)则
总变异=A 主效应+B 主效应+A*B 交互效应+误差
交叉设计资料的方差分析:总变异=顺序主效应(个体间)+处理主效应(个体内)+阶段主
效应+误差(个体间+个体内)
重复测量设计资料的方差分析:总变异=处理主效应(个体间)+时间主效应(个体内)+时
间*处理交互效应(个体内)+误差(个体间+个体内)
析因设计:是一种较常用的多因素实验设计(不同于完全随机设计——单因素设计);
当试验因素和水平不多时,可以考虑使用析因设计,获得更丰富的信息。
研究问题复杂时,可以使用“不完全设计”,但对统计分析要求更高。
析因设计优点:
(1) 全面、高效性:均衡地对各因素的不同水平进行全面组合;
(2) 获得信息多:可考察各试验因素的主效应和交互效应;
析因设计缺点:
(1) 所需试验组数多,尤其是处理因素或水平较多时设计复杂;
(2) 相对于主效应的检测,交互作用的检测对样本量的要求更高;
(3) 当两种干预对结局的作用机制相似或相近时,析因设计不是一个很好的选择,此
时,可能因为“天花板效应”,产生统计学上的“交互作用”。
其他设计类型资料的方差分析:
1. 协方差分析(回归与 ANOVA 相结合)。
2. 拉丁方设计(三因素,且各因素的水平数相同)
3. 正交设计(析因设计的扩展,牺牲部分交互作用的探索,依照正交表安排实验)
4. 裂区设计(处理 1 作用于个体间、处理 2 作用于次级单位,需要不同的 Ei)
协方差分析的基本思想:
是把直线回归法与方差分析法结合起来的一种方法。其目的是要把与 y 呈直线关系的 x 化
成相等后,再来检验各组 y 均数(即修匀均数)间差别有无统计学意义。
由于协方差分析消除了各组 x 不同所产生的的影响,在对 y 的均数作比较,因此,结论更
为合理。
协方差分析的应用条件:
1. 正态性;
2. 方差齐性;
3. 个总体中因变量与协变量间具有直线回归关系;
4. 个回归系数居于相同水平
X
2 检验
2
X 检验的基本思想:
2 2
X 值反映了在原假设成立的前提下, 实际频数与理论频数的吻合程度, X 值越大,二
者差异越大,越有理由拒绝原假设。
2 检验可以做单侧检验吗?
2 检验中,为什么只用2 分布的右侧尾部面积 ?
1) 若 H 0成立,则实际频数与理论频数的差距会比较小,因此卡方值也会比较小,最小
值为 0;
2) 若 H 0不成立,不管实际频数与理论频数谁大谁小,差距都会比较大,即卡方值会比
较大, 极端的情况只可能出现在右端。
3) 当卡方值大到一定程度时,认为 H 0不成立,可把右侧尾部看做是拒绝域。
因此,卡方检验为双侧检验,但查表时只看卡方分布的右侧尾部面积(卡方检验不能
进行单侧检验)。
McNemar 检验与独立样本资料的四格表的主要区别之处:
1、 行合计与列合计事先均不确定;
2、 格子中的数字表示的是对子数。
2 检验条件:
资料类型 应用条件 公式 备注
独立的两组 不 校 正 n≥40 , 所 如果 n< 40,或有
二分类资料 有 T≥5 时 T< 1 时,用精确概
(四格表) 率法
校 正 n≥40 , 若 有
1≤T< 5 时
配对的两组 不校正 b + c≥40 配对设计有专用的
二分类资料 公式
McNemar 检验 校正 b + c< 40
什么情况下应用秩和检验呢?
若结局变量为多分类有序变量, 且希望比较各组患者在结局上的等级之间的差别是否具有
统计学意义时, 需要选用秩和检验。
秩和检验:基于秩次提供的信息,对不同总体的平均水平(位置)进行假设检验。
秩和检验的基本思想:首先将原始数据从小到大,或等级从弱到强转换成秩后,再对基于
秩次的统计量(如秩和),进行检验,做出统计推断。故又称基于秩次的非参数检验。
不同资料的秩和检验:
资料类型 秩和检验
两独立样本资料(定量/等
Wilcoxon 秩和检验
级)
配对样本资料 Wilcoxon 符号秩和检验
多组独立样本资料(定量/等
Kruskal-Wallis (H)检验
级)
关联性分析
3. 若存在关联,则采用关联系数确认关联程度。 r =
√ X2
2
X +n
, 对于 2x2 列联表,关
线性回归采用了方差分析的思想。
为什么线性回归的自由度 v=n−2? 因为必过点( X ,Y )。
线性回归的前提条件:LINE
线性(Linear):Y 与 X 呈线性变化趋势时,X 依次增加或减少一个单位,Y 的平均改变量保
持不变。(散点图、残差图);
独立(Independence):.任意两个观测值相互独立。(专业知识、Durbin-Waston 值接近于
2)
正态(Normal):在给定 X 值时,Y 的取值服从正态分布,与此正态性要求等价的是残差
服从正态分布。(残差图、正态概率图、残差直方图)
等方差(Equal variance):指对应不同的 X 值,Y 值的总体变异相同。(残差图)
简单线性回归是指只包含一个自变量,且呈线性变化趋势的线性回归模型,用以描述因变
量的总体均数与自变量之间的线性关系,亦称两变量间的依存变化关系。在实际应用中,
两变量之间的关系应有实际意义,不要把毫无关联的两种现象作回归分析。
简单线性回归的基本步骤:①绘制散点图,考察两变量是否有线性趋势及可疑的异常值;
②估计回归系数与截距;③对总体回归系数(t 检验)或回归方程(方差分析)进行假设检
验;④列出回归方程,绘制回归直线;⑤统计应用(预测和控制)。
在简单线性回归模型中,由于只有一个自变量,回归模型的方差分析等价于对回归系数 t 检验,且t= √ F。
对于服从双变量正态分布的同一组资料,若同时做了相关分析和回归分析,则相关系数的 t 检验与回归系
数的 t 检验等价。
简单线性回归方差包括截距和回归系数两个参数,通常采用最小二乘估计。回归分析的假
设检验分两种情况,分别是针对总体回归方程的方差分析,和针对总体回归系数的 t 检验。
总体回归系数的区间估计:
b±tα Sb
, ( n−2)
2
均值的置信区间计算:
^
当 X 为某定值时,Y 的均数(1-α )置信区间为:Y ± t α , ( n−2) S ^Y
2
^
个体值 Y 的预测区间:Y ± t α , ( n−2) S ^Y
2
√ √ √
2 2
SS 残差 1 ( X i −X ) 1 ( X i−X ) )
( SY ∙ X = , S Y^ =S Y ∙ X + , S =S 1+ +
n−2 n ∑ ( X −X )2 Y Y ∙X
n ∑ ( X−X )2
当n 相当大, X i 离 X 非常接近时, SY ≈ S Y ∙ X
^ 的标准误; SY 是Y 的标准差。
PS: SY ∙ X 是回归的残差标准差。 S Y^ 是Y
两变量不是线性关系时怎么办?
对血药浓度与时间效应曲线、生长曲线、剂量反应关系等,可采用曲线拟合的方法。
1. 指数曲线:又称指数生长曲线,双变量资料中,当自变量 X 增加时,因变量 Y 随
之增加(或减少)得更快。
2. 多项式曲线:加入二次、三次多项式,适合标准曲线的绘制。
3. logistic 曲线:又称 Pearl-Reed 曲线,呈拉长的 S 形曲线,多用于发育、动态率、
剂量反应关系以及人口等方面的研究。
4. 双曲线:适用于弯曲程度比指数曲线还大的资料,如肌肉张力、神经生理方面强
度间期数据的分析。
抽样调查研究
抽样方法:
1. 概率抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样;
2. 非概率抽样:方便抽样、判断抽样、配额抽样、雪球抽样等。
3. 概率抽样:保证总体中每个观察单位有同等的概率被抽到样本中,随机性好,代表
性强。
抽样方法:
1) 单纯随机抽样:先编号、再抽签或随机数字法。优点:易于估计误差。缺点:总体大
时编号困难,且在个体差异大、抽样比例较小时所得样本的代表性较差。
2) 系统抽样:将总体中个体的编号(如学号、门牌号)按照某种确定的规则(抽样间隔
确定)抽取,又称机械抽样。优点:简单、省时;抽样误差小于随机抽样。缺点:当
观察单位间存在某种趋势(如周期性变化)时,可能产生偏倚。
3) 分层随机抽样:先将总体中所有观察单位按照主要特征(如年龄、性别、病情等)分
为若干层,然后在各层中进行随机抽样,又称类型抽样。要求:层内个体差异越小越
好,层间差异越大越好。根据各层抽取数量的不同,分为比例分层法和最优分层法。
优点:抽样误差最小,各层可独立分析,层间可进行比较。缺点:分层较多时,调查
和分析较麻烦。
分层随机抽样——比例分层法&最优分层法
a) 比例分层法:大层多抽,小层少抽。各层样本含量与该层单位数量成比例。
b) 最优分层法:大层多抽,变异度大也多抽。各层样本含量既与该层单位数量呈正
比,又与该层内变异度的大小成正比。
4) 整群抽样:以群体为基本单位抽样。“群”间差异小、抽取的“群”多,则样本的代
表性好。优点:便于组织和质量控制,由于在同一地区进行调查工作,可节省人力、
物力和财力。缺点:抽样误差大。
5) 多阶段抽样:可与上述四种方法联合使用。将整个抽样过程分为若干阶段进行抽样的
方法。
抽样误差排序:
整群抽样 > 单纯随机抽样 > 系统抽样 > 分层随机抽样
实验研究设计
干预性研究的设计:
1、 实验设计的基本步骤:
1) 受试对象的选择;
2) 样本含量的确定;
3) 如何设定合适的对照组;
4) 确定拟考察的实验因素;
5) 采取科学方法对受试对象分组;
6) 确定合适的实验设计类型;
2、 实验设计的三要素:
1) 受试对象: 纳入标准和排除标准
2) 试验因素:控制重要和非试验因素(其他)
3) 实验效应:客观指标和主观指标;灵敏度和特异性;准确和精密
3、 实验设计的四原则:
1) 对照
i. 空白对照:对照组不施加任何措施。
ii. 标准对照:现有的公认的经典治疗方法或标准治疗方法;或以现有的标准值
或正常值作为对照。
iii. 自身对照:对照与实验在统一为受试者身上进行。
iv. 相互对照:有时需要考察的因素不能取零水平(如反应温度等),使其在不
同该条件下实验,从而互相对照。
v. 实验对照:仅含非实验因素的实验组(操作相同,但不含试验因素的对照) ,
如仅注射生理盐水的对照组,此时若为空白对照则不予注射。
vi. 安慰剂对照:为排除心理活动对受试者疾病发生、发展及预后的影响,对照
组受试者给予无药理活性的安慰剂。(与实验对照区别是安慰剂针对心理,
即表面相同)
vii. 历史对照(一般不宜采用):以历史资料作为对照。
2) 重复:重复实验、重复取样、重复测量。可见准确性。
3) 随机:使实验组与对照组在非实验因素的分布方面尽量保持均衡一致。降低系统
误差的影响,贯穿于设计和实施全过程(样本代表性、组间可比性、排除实验顺
序影响)
4) 均衡:使试验组与对照组之间的非实验因素力求均衡一致——使可比
Q:随机和均衡区别?
4、 实验设计方案:
1) 完全随机设计:设计和统计分析都比较简单,但试验效率较低,只能考察一个因
素对观测结果的影响情况。
2) 配对设计:优点:能有效降低来自个体差异对观测结果的影响,从而减小实验误
差,提高试验效率。但配对的条件应当是本实验研究中对观测结果有重要影响的
非试验因素,不能随便选取一个非试验因素作为配对条件。
3) 随机区组设计:是在单因素设计的基础上,多考虑一个区组因素。区组因素反映
了受试对象在重要条件上的差异,若不将其排除,必然会影响实验因素各水平之
间差别大小的正确评价。
4) 交叉设计(Cross-over design):成组交叉设计和配对交叉设计(较前者好)。
i. 优点:①每个个体均接受两种处理,控制个体差异,节约样本含量; ②平衡
实验顺序对结果的影响。
ii. 缺点:①时间长,不适用于具有自愈倾向或病程短的研究; ②两种处理之间
应具有足够长的洗脱期;③数据缺失会增加统计的困难。
iii. 应用:①药物在短期内有效(如一到两周内);②药效不持久(没有剩余效
应)。
5、 “四原则”要点?
1) 随机原则:严格按照随即原则分配受试对象,根据实际具体情况试实施最合适的
随机化(如分层随机)。
2) 对照原则:必须设置合理对照组,通常是多种对照形式共存。
3) 重复原则:基于一定的先验知识和控制两类错误率的上限,合理地估计出所需要
的样本含量。
4) 均衡原则:从考虑“三要素“开始到落实随机、对照、重复三个原则为止的全过
程种,每一个环节都应尽可能做到均衡,使一切非实验因素对各组的影响基本一
致。
6、 样本量的估算——比较两组测定值的均数
1) 预计欲比较的量总体参数的差值δ ;
2) 预计总体标准差σ ;
3) 允许出现假阳性结果的机会α ;
4) 允许出现假阴性结果的机会 β 。
比较两组发生某结局的百分比
(1) 预计一个组发生某结局的百分比约为1
(2) 预计另一组发生某结局的百分比约为2
(3) 允许犯假阳性错误的机会
(4) 允许犯假阴性错误的机会
Logistic 回归
logistic 回归参数估计:
1. 最大似然法:统计量为lnL
L0
2. 回归模型的假设检验——似然比检验,统计量为 G。 G=−2 ln ( ),( L0 < L1
L1
)G 值越小越好,则模型的拟合效果越好。其中, L0对应 H 0 的最大似然, L1对应于
H 1的最大似然。
较多的模型;否则,不拒绝 H 0 ,采纳变量较少的模型。
4. 回归系数的假设检验——Wald,若 Wald X 2 值远大于自由度为 1 的 X 2 临界值,则拒绝
H 0,可认为 β i ≠ 0
5. 拟合优度检验:用于检验所选模型与实际数据的吻合程度,评价模型的预测值与实际
观测值的一致性。
a) 使 用 Hosmer-Lemeshow 检 验 , 实 质 为 比 较 实 际 观 察 聘 书 与 模 型 理 论 频 数 的
Pearson X 2 检验。
b) 若得到的检验统计量的数值远小于相应自由度的 X 2 分布临界值,或 P 值较大,则
可认为模型拟合较好。
c) 除 Hosmer-Lemeshow 检验,Pearson 检验(Pearson test)和偏差检验(deviation
test)也常用来进行拟合优度检验,且三者均以 X 2 检验的基本原理为基础,一般
结果相近。
6. Logistic 回归自变量的筛选:类似于多重线性回归,有前进法、后退法和逐步法等,检
验统计量不同于多重线性回归,为似然比检验。
7. 注意:
a) 由于病例-对照研究中,病例与对照的比例都是人为定好的,不能代表自然人群中
真是的病例与对照的比例。上述常数项并不是各个自变量取值为 0 时人群患病优
势估计的对数,因此这里的常数项没有实际意义,该回归模型不能直接在人群中
用于预测。如果希望将该模型用于预测,需要知道人群中的真实患病率,对常数
项进行校正,具体公式还需自行查阅。
b) Logistic 回归适用情况:
i. 队列研究
ii. 病例-对照研究
iii. 横断面研究等
8. 多分类 Logistic 回归——无序、有序
9. Logistic 回归两个主要用途:
a) 影响因素分析,求出各自变量对应的 OR 值;
b) 可以求出因变量各类发生的概率用于预测。
10. 条件 logistic 回归:因为常数项被约掉了,因而不能作预测,只能用于危险因素分析。
随机对照试验——CONSORT
观察性研究——STROBE
系统综述和 meta 分析——PRISMA
诊断精确性研究——STARD