统计复习资料

统计复习资料——ZQX
目录
统计描述..................................................................................................................................1
参数估计..................................................................................................................................3
单变量统计方法：...................................................................................................................5
方差分析..................................................................................................................................9
X 2检验..................................................................................................................................11
秩和检验................................................................................................................................13
关联性分析............................................................................................................................14
简单线性回归........................................................................................................................15
抽样调查研究........................................................................................................................17
实验研究设计........................................................................................................................18
Logistic 回归............................................................................................................................20
统计描述
定性资料的统计描述
使用
指标意义特点
情况
二分
反映某一种只有两种可分子是分母的一部分；无
类资
率（Frequency）能结局的事件中，某个量纲；在[0,1]取值。
料；
Actual numb关心结局出现的机会大注意：几个事件的率相加
或多 Frequency=
Posibal total小，即阳性率、携带率
numb 不得 1，除非是同一事件
分类
等。中的所有可能结局之和。
指标
多分反映某事件发生的数量
类资构成比(Intensity, Rate) 占所有统计事件发生数求和为 1
料量的比例
A 和 B 可以是绝对数，也
相对比(Ratio) 某段时间内某现象发生
复合可以是相对数；A 和 B 的
A 的频率
指标 Ratio= 量纲可以不同，也可以相
B
同，但 A 和 B 互不包含。
强度指标——率
强度是流行病学、统计学术语；（常见单位：人年）
相对危险度（OR）——相对比的一种：
暴露于某危险因素的发病率与未暴露于该危险因素的发病率之比。
相对比的注意事项：
1. 防止概念混淆
2. 计算相对数时分母不宜过小
3. 观察单位数不等的几个相对数，不能直接相加求其平均水平
4. 相对数间应注意可比性
概率分布
二项分布：
二项分布特点：
1) 每次试验只有两种互斥的结果
2) 为找到这些试验结果的规律性，通常需要在相同条件下独立重复做 n 次。
3) 我们关心 n 次试验结果中阳性结果的数目 X。
伯努利试验：一般地，对于 n 次独立、重复试验，如果每次试验只出现两种对立的结果
（对立事件 A 与 A 之一），在每次试验中，A 发生的概率都是 π （因而其对立事件 A 发生的
概率都是 1- π ），则称这一串独立、重复试验为 n 重伯努利试验，简称伯努利试验。
二项分布是一种离散型概率分布。参数 n 称为离散参数，只能取正整数；参数 π 是事件 A

发生的总体概率。
二项分布概率特点：
1) 二项分布概率之和等于 1.
2) 单侧积累概率
二项分布的均数与标准差：
设 X~B （ n ， π ），则阳性结果发生数 X 的总体均数为 μ=n π ；总体方差为
σ =n π （ 1−π ）；总体标准差为σ =√ n π （ 1−π ）。
2
Poisson 分布：
Poisson 分布可作为二项分布的极限而得到。换而言之，如果 X~ B（n， π ），当 π 很小，而
n 很大时，可以认为 X 近似服从 λ=n π 的 Poisson 分布∏ （ λ ）。
Poisson 分布特征：
1) λ 是 Poisson 分布的唯一参数，它表示单位时间（或单位面积、单位空间）内某随
机事件的平均发生数，即总体数。给定总体均数 λ ，按照 Poisson 分布的概率计算
公式可以求得概率 P（X=k），K=0，1,2，…，从而得到对应的 Poisson 分布图形。
由图可看出λ 值越小分布越不对称，随着λ 的增大，Poisson 分布趋于对称。
2) 总体均数与总体方差相等。即λ = σ 2；
3) 当λ = 20 时，Poisson 分布接近于正态分布；当λ = 50 时，可以认为 Poisson 分布呈
正态分布。
4) Poisson 分布具有可加性。
a) 若 m 个相互独立的随机变量 X 1 , X 2 , , … , X m分别服从参数为 λ 1 , λ2 , … , λm 的
Poisson 分布，则其和 X 1 + X 2 ,+ …+ X m服从均数为 λ 1+ λ2 +…+ λ m的 Poisson
分布。
b) 应用中常利用 Poisson 分布的可加性，将若干个互相独立的小观察单位合并成
一个大观察单位，从而使均数 λ ≥ 20，以便服从 Poisson 分布的资料按正态近
似处理。
常见 Poisson 分布的随机变量：①人群中某种患病率很低的非传染性疾病发病数或死亡数；
②每升饮水中大肠杆菌数；③计数器小方格中的血细胞数；④单位空间中的粉尘数；⑤医
院门诊单位时间内就诊的患者数等；⑥放射性物质单位时间内放射的粒子数，⑦地震、火
山爆发、特大洪水等天灾事故、⑧交换台的电话呼唤次数等，也服从 Poisson 分布。
不服从 Poisson 分布的是：①一些具有传染性的罕见疾病的发病数；②单位时间内、单位面
积或单位容积内，所观察到事物由于某些原因分布不均匀（如细菌在牛奶中击落存在）时，
亦不呈 Poisson 分布。
参数估计
中心极限定理：当有足够样本含量（如n ≥ 30）时，从任何总体中随机抽取样本的样本均
数近似地服从正态分布，样本含量越大， X 抽样分布越接近于正态分布。
解释：如果总体原本就是正态分布，那么对于所有 n 值，抽样分布均为正态分布。如果总
体为非正态分布，仅在 n 值较大的情况下， X 近似服从正态分布。一般说n ≥ 30时的抽样分
布近似为正态分布；但是，如果总体分布极度非正态（如双峰分布，极度偏锋分布），n
值很大很大时， X 才近似服从正态分布。
标准差（ S）标准误（ S X , S p , SEM ）

含离均差平方的算术平均数的平方均数的标准差，是描述均数抽样分布的离散程
义根，即方差的平方根度及衡量均数抽样误差大小的尺度，反映的是
样本均数之间的变异
反  它反映组内个体间的离散程  标准误用来衡量抽样误差。
映度；  标准误越小，表明样本统计量与总体参数
 一个较大的标准差，代表大的值越接近，样本对总体越有代表性，用
部分数值和其平均值之间差样本统计量推断总体参数的可靠度越大。
异较大；一个较小的标准因此，标准误是统计推断可靠性的指标。
差，代表这些数值较接近平
均值。
样样本含量越大，标准差越稳定样本含量越大，标准误越小。
本
含
量
参数估计分为点估计和区间估计
点估计没有考虑到标准误，不能反映抽样误差的大小。
区间估计——置信区间
置信区间参考区间
概念按事先给定的（1−α ）来大多数个体观测值的范围，
估计包含位置总体参数的一通常用 95%或 99%表示“大
个区间范围，该范围称为参多数”，有 5%或 1%的个体
数的置信区间。除外，一般地记为（1-α ）
实际含义如果从一个个总体中重复抽指在同质的前提下排除了足
取 100 份样本含量相同的独以影响所测指标的因素（包
立样本，每份样本分别计算括疾病）的个体。
1 个置信区间，在 100 个置
信区间中，大约有 95 个置
信区间覆盖总体均数，大约
有 5 个置信区间不覆盖总体
均数。对于某一次估计的置
信区间，我们总宣称这个区
间覆盖了总体均数，但不一
定是真的覆盖了总体均数，
于是我们补充一句，置信度
为 95%。
范畴统计推断统计描述
用途估计未知总体参数所在范围供判断观察个体某项指标是
否“正常”时参考
计算公式正态分布，σ 未知：正态分布： X ± Z α /2 S ；
X ± t α /2 , v S x ；非正态分布：[
非正态分布，但 P100 α / 2 , P
100(1− ) ]
α
n ≥ 30 ，有 X ± Z α /2 σ X 或 2
X ± Z α /2 S X
单变量统计方法：
定量资料和定性资料的比较
定量资料定性资料
两独立样本定量资料的比较：两组独立二分类资料的比较
t 检验： X 2 检验（不校正与校正）
校正的 t 检验（方差不齐） *
Wilcoxon 秩和检验 Fisher 确切概率法*
配对设计定量资料的比较：配对的两组二分类资料的比
配对设计资料的 t 检验较：
配对设计资料的符号秩和检验配对 X 2 检验*
多组独立样本定量资料的比较：多组独立多分类资料的比较：
2
方差分析无序多分类资料： X 检验*
Kruskal-wallis（H 检验）有序多分类资料：秩和检验
* 频数分布的差异性检验
其余为实验效应（总体均数、总体中位数）的比较检验
先分析数据类型：定量资料（如年龄）？定性资料（如家庭人口，电器数量等）？
定量资料：连续型定量资料？离散型定量资料？
定性资料：二分类资料？无序多分类资料？有序多分类资料（等级资料）？
对定量资料前提条件假设：正态性？符合则进行均数（ X ）以及标准差（ S）的统计描述，

之后计算总体置信区间以及进行 t 检验或方差分析以比较总体均数；不符合则进行中位数
（ M d ）和四分位数间距（Q 25−75），之后进行秩和检验。
对分类资料：先行统计描述（率、构成比、相对比），之后对总体率的置信区间进行估计，
并进行 X 2 检验以对实际值与期望值进行比较。
PS：变量类型的转换（单向，不断损失信息）：
连续定量资料 → 有序多分类资料 → 无序 → 二值
（补充：统计推断常见的错误：假阳性率（α ）以及假阴性率（ β ）
资料分解优点缺点
设计
类型
完全总变异=组间变异+ 统计分析简单实验效能低，易受非实验因素
随机组内变异影响。
设计
配对 - 降低个体差异对测量结如果随意选取一个非试验因素
设计果的影响，从而减小实作为配对条件，而不是选择对
验误差，提高实验效观测结果影响最大的因素，则
率。效能不佳
随机总变异=处理变异+ 可对非实验因素进行均
区组区组变异衡化，增加实验可比性
设计
交叉总变异=个体间变异每个个体接受两种处不适用于具有自愈倾向的或病
设计（处理+时间）+个理，节约样本含量；程短疾病的研究；
体内变异平衡实验顺序对结果的两种处理之间应有足够长的洗
影响。脱期。
析因总变异=A 主效应+B 同时进行多因素 /多水
设计主效应+AB 交互效应平分析；
可对交互效应分析
重复总变异=处理变异+ 可减少样本含量；有数据缺失时增加了统计的困
测量时间变异+时间*处可考察指标随时间推移难；
设计理交互效应（？）的动态变化趋势。在同一受试者身上不同时间点
测量结果常有关联——需采用
较复杂的统计分析方法
参数检验和非参数检验的区别与优缺点
参数检验非参数检验
1.偏态分布资料和未知分布总体
正态分布 2.总体方差不齐
适用条件
方差齐性 3.等级资料
4.开口资料（端点无确定值）
1.Wilcoxon 符号秩和检验
1. 配对样本 t 检验
（配对资料）
2. 两独立样本 t 检验
2. Wilcoxon 秩和检验
检验方法 3. 方差分析
（两组独立资料）
（多组独立定量资料）
3.Kruskal-wallis（H 检验）
4. 单组样本 t 检验/Z 检验
（多组独立资料）
充分利用信息（原始数
只利用秩次（损失信息）
据）
优缺点不受分布限定、自由
受总体分布限定
检验效能低
检验效能高
分类基本思想使用情况注意特点
参 T 检验单样本 t 检验小样本均数与可用于完全随机小样本时：要是双侧检
数两独立样本 t 总体均数的比设计两样本定量求正态分布、验；自由
检检验较；资料的假设检验方差齐性，否度越大则
验配对样本 t 检两总体均数的则需要使用校其形状越
验比较。正的 t 检验、高（越集
校正 t 检验变量变换、秩中）；
和检验。
方差分析单因素方差把全部观察值两个或两个以上
分析间的变异—总总体均数的比
多因素方差变异按设计和较；也可分析两
分析需要分解成两个或多个研究因
随机化区组个或多个组成素的交互作用及
方差分析部分，再做分回归方程的线性
重复测量设析。假设检验等。
计的方差分
析
非（ Pearson ）四格表
参卡方检验（2x2）
数配对四格表
检（ McNemar
验检验）
RxC 列联表的
卡方检验
秩和检验 Friedman 秩基于秩次提供
和检验；的信息，对不
Wilcoxn 符号同总体的平均
秩和检验水平（位置）
进行假设检验
Kruskal-Wallis
检验
U 检验
（ Mann-
Whitney 检
验）
关简单相关 Pearson 相
联关；
性 Spearman 秩
分相关
析
简单线性回归
多重线性回归
Logistic 回归
Cox 回归生存曲线
t 检验：小样本均数与总体均数的比较；两总体均数的比较。
方差分析
方差分析基本思想：
把全部观察值间的变异—总变异按设
计和需要分解成两个或多个组成部分，
再做分析。
组间变异：反映各组间均数的差异，
即各组间均数与总均数的差异，该变
异主要是处理因素的作用。
组内变异：完全是各组内个体间的差
异，体现为每个数据与该组均数的差
异，因此可以认为是随机误差，又称
误差变异。
Q：为什么选择均方而不用离均差平方和比较变异？
A：因为组间变异和组内变异自由度不同，没有可比性。因而需要将两种变异除以各自自由
度，表示平均变异指标。
随机区组的方差分析 F 统计量：
若 F 大于某一临界值，则 P 小于检验水准，拒绝零假设，有统计学差异；
若 F 小于某一临界值，则 P 大于检验水准，不拒绝零假设，认为没有统计学差异。
方差分析用途：
（1）能用于两个或多个以上总体均数的比较；
（2）还可以分析两个或多个因素的交互作用；
（3）对回归方程的线性进行假设检验
两两比较：
表 5 四种常用的均数间两两比较方法
均数间两两比较方法用途
LSD 根根据专业知识，事先指定某些组均数间的比较(敏感)
经假设检验得出多个总体均数不全等后，
Bonfferoni
进行的两两比较(最为保守)
经假设检验得出多个总体均数不全等后，
SNK
进行的两两比较(探索性)
多个组均数与指定组均数的比较
Dunnett-t
（如多个处理组与对照组的比较
方差分析分为：
1. 完全随机设计的方差分析——单因素方差分析
2. 随机区组方差分析
a) 配对设计
b) 析因设计
c) 交叉设计
d) 重复测量设计
数据变换：
1. 对数变换：适用于
a) 对数正态分布资料，如抗体梯度资料，疾病潜伏期，食品、蔬菜、水果中农
药的残留量等；
b) 标准差与均数成比例，或变异系数接近甚至等于某一常数的资料；
2. 平方根变换：适用于方差与均数成比例的资料，如服从 Poisson 分布的资料。
3. 平方根反正弦变换：适用于百分比数据资料。
各种方差分析分解思想的比较：
完全随机设计是仅根据处理不同而分组，是单因素方差分析，总变异=处理变异（组间变
异）+误差（组内变异）； v=k −1
随机区组设计资料的方差分析：先根据某种相同或相似的性质分成 b 个区组，再将区组中
个体随机分配到 k 个组中。总变异=处理（组间变异）+区组（区组间变异）+误差（个体差
异）。
析因设计资料的方差分析：如有 k≥2 个实验因素（如试验药物 A、 B），每种因素有 m≥2
个水平（如服药、不服药），若 k 个实验因素的 m 个水平同时施加于受试对象，则这样
的试验方案称为k × m析因设计。若为四格表（A*B）则
总变异=A 主效应+B 主效应+A*B 交互效应+误差
交叉设计资料的方差分析：总变异=顺序主效应（个体间）+处理主效应（个体内）+阶段主
效应+误差（个体间+个体内）
重复测量设计资料的方差分析：总变异=处理主效应（个体间）+时间主效应（个体内）+时
间*处理交互效应（个体内）+误差（个体间+个体内）
析因设计：是一种较常用的多因素实验设计（不同于完全随机设计——单因素设计）；
当试验因素和水平不多时，可以考虑使用析因设计，获得更丰富的信息。
研究问题复杂时，可以使用“不完全设计”，但对统计分析要求更高。
析因设计优点：
（1）全面、高效性：均衡地对各因素的不同水平进行全面组合；
（2）获得信息多：可考察各试验因素的主效应和交互效应；
析因设计缺点：
（1）所需试验组数多，尤其是处理因素或水平较多时设计复杂；
（2）相对于主效应的检测，交互作用的检测对样本量的要求更高；
（3）当两种干预对结局的作用机制相似或相近时，析因设计不是一个很好的选择，此
时，可能因为“天花板效应”，产生统计学上的“交互作用”。
其他设计类型资料的方差分析：
1. 协方差分析（回归与 ANOVA 相结合）。
2. 拉丁方设计（三因素，且各因素的水平数相同）
3. 正交设计（析因设计的扩展，牺牲部分交互作用的探索，依照正交表安排实验）
4. 裂区设计（处理 1 作用于个体间、处理 2 作用于次级单位，需要不同的 Ei）
协方差分析的基本思想：
是把直线回归法与方差分析法结合起来的一种方法。其目的是要把与 y 呈直线关系的 x 化
成相等后，再来检验各组 y 均数（即修匀均数）间差别有无统计学意义。
由于协方差分析消除了各组 x 不同所产生的的影响，在对 y 的均数作比较，因此，结论更
为合理。
协方差分析的应用条件：
1. 正态性；
2. 方差齐性；
3. 个总体中因变量与协变量间具有直线回归关系；
4. 个回归系数居于相同水平
X
2 检验
2
X 检验的基本思想：
2 2
X 值反映了在原假设成立的前提下，实际频数与理论频数的吻合程度，  X 值越大，二
者差异越大，越有理由拒绝原假设。
2 检验可以做单侧检验吗？
2 检验中，为什么只用2 分布的右侧尾部面积 ？
1) 若 H 0成立，则实际频数与理论频数的差距会比较小，因此卡方值也会比较小，最小
值为 0；
2) 若 H 0不成立，不管实际频数与理论频数谁大谁小，差距都会比较大，即卡方值会比
较大，极端的情况只可能出现在右端。
3) 当卡方值大到一定程度时，认为 H 0不成立，可把右侧尾部看做是拒绝域。
因此，卡方检验为双侧检验，但查表时只看卡方分布的右侧尾部面积（卡方检验不能
进行单侧检验）。
McNemar 检验与独立样本资料的四格表的主要区别之处：
1、行合计与列合计事先均不确定；
2、格子中的数字表示的是对子数。
2 检验条件：
资料类型应用条件公式备注
独立的两组不校正 n≥40 ，所如果 n＜ 40，或有
二分类资料有 T≥5 时 T＜ 1 时，用精确概
（四格表）率法
校正 n≥40 ，若有
1≤T＜ 5 时
配对的两组不校正 b + c≥40 配对设计有专用的
二分类资料公式
McNemar 检验校正 b + c＜ 40
R×C 不能有 1/5 以上的处理方法：

列联表资料格子中的理论频数 1.增大样本量
小于 5，或者不能 2.合并行或列
有一个格子的理论 3.精确概率法
频
数小于 1。
R×C 列联表理论频数不满足2 检验的要求时，可考虑选择如下方法处理：

1. 增加样本含量，这是最好的方法，但可行性差；
2. 结合专业知识考虑是否可以将该格所在行或列与别的行或列合并，是否可以合并要根据
样本的专业特性来确定，合并后会损失信息；
3. 改用 Fisher 精确概率法。
秩和检验
什么情况下应用秩和检验呢？
若结局变量为多分类有序变量，且希望比较各组患者在结局上的等级之间的差别是否具有
统计学意义时，需要选用秩和检验。
秩和检验：基于秩次提供的信息，对不同总体的平均水平（位置）进行假设检验。
秩和检验的基本思想：首先将原始数据从小到大，或等级从弱到强转换成秩后，再对基于
秩次的统计量（如秩和），进行检验，做出统计推断。故又称基于秩次的非参数检验。
不同资料的秩和检验：
资料类型秩和检验
两独立样本资料（定量/等
Wilcoxon 秩和检验
级）
配对样本资料 Wilcoxon 符号秩和检验
多组独立样本资料（定量/等
Kruskal-Wallis (H)检验
级）
关联性分析
关联性分析（线性关联的程度和方向，双变量正态分布 Pearson，非正态分布 Spearman）

简单相关：一般的，两个连续变量间的线性关系称为线性相关，又称简单相关。
关联：两个分类变量之间的联系。
相关的种类：正相关、负相关、零相关、非线性相关（散点呈曲线）
关联强度指标：相关系数 r，区间（-1，1）.
Pearson 相关：两个连续型随机变量间的相关分析。两变量分别以 X，Y 表示，如果 X 与 Y
均是随机变量，呈双变量正态分布，散点图呈线性趋势，各观测值间相互独立，则可以用
Pearson 积矩相关系数来描述两者间的关系，简称相关系数。
Pearson 相关前提条件：①资料为两连续随机变量；②双变量正态分布；③散点图呈线性；
④独立
总体相关系数 ρ 特点：①无量纲，区间[-1,1]；②>0 为正相关，<0 为负相关；③|ρ|越接近 1
则相关性越好，接近 0 则相关性差。
对相关系数假设检验： t 检验，自由度 v=n−2，
|t |越大，概率 P 越小，反之， P 越大。
Pearson 积矩相关系数的区间估计：反双曲正切变换以及双曲正切变换。
在 excel 中表现为
关联性分析步骤：
①绘制散点图看有无线性关系，正 or 负相关；
②按公式计算 Pearson 相关系数 r；
③进行关联的假设检验，零假设为总体相关系数 ρ=0，进行 t 检验；
④计算总体相关系数 ρ 的 95%置信区间。
Spearman 秩相关：X，Y 不服从双变量正态分布或总体分布类型未知，或数据本身具有不
确定性，或为等级资料，则可采用秩相关或等级相关来刻画两变量相关的程度和方向。
Spearman 秩相关基本思想：将原始数据转换为秩次。将两变量 X,Y 成对的观测值分别从小
到大排序编秩，以
pi 表示Y I 秩次，观测值相同的取平均秩；计算公式仍采用 Pearson
相关系数的公式，但以秩次 pi 、 q i 代替原始数据 X i 、 Y i。用秩次计算得到的相关系
数称为 Spearman 秩相关系数或等级相关系数，用统计量r S表示。
对总体秩相关系数进行假设检验——查r S界值表（n ≤ 50）; t 检验（n ≥ 50）
相关的解释要点：
①不能下因果关系的结论；
②若经检验不能拒绝 ρ=0的假设则先看样本量是否足够，其次看散点图是否为曲线关
系（考虑换模型），再看是否应该对资料进行分层分析等。若还是不能深入分析，则下结
论“据目前数据尚不能认为两变量呈线性相关”；
③异常点：首先核对是否录错数据，再在剔除前后分别作一次分析，并在报告结果时
特别说明对异常点做的处理。
2
分类变量间的关联分析——得频数资料（列联表）作关于两种属性独立性的 X 检验。
1. 零假设为两种属性互相独立；备择假设为两属性互相关联。
2. H 0 成立时，统计量服从 X 2 分布。
3. 若存在关联，则采用关联系数确认关联程度。 r =
√ X2
2
X +n
，对于 2x2 列联表，关
联系数 r 介于0 和 √ 0.5之间，其数值越大，关联程度越高；总体关联系数是否等

于 0 的假设与对两种属性独立否的检验等价。
4. 2x2 配对资料关联性分析注意：配对设计的此种资料类型既可进行频率的比较，
又可进行关联性分析，资料的整理完全一致，但由于分析目的不同，计算方法也
不同：进行频率的比较时，McNemar 检验法仅对配对中不一致的数据进行检验。
5. 前提条件：少于 1/5 格子的理论频数¿ 5；少于 1 个格子的理论频数¿ 1.
6. 若为两个有序多分类变量，则可用 Spearman 分析。
简单线性回归
线性回归采用了方差分析的思想。
为什么线性回归的自由度 v=n−2？因为必过点（ X ，Y ）。
线性回归的前提条件：LINE
线性（Linear）：Y 与 X 呈线性变化趋势时，X 依次增加或减少一个单位，Y 的平均改变量保
持不变。（散点图、残差图）；
独立（Independence）：.任意两个观测值相互独立。（专业知识、Durbin-Waston 值接近于
2）
正态（Normal）：在给定 X 值时，Y 的取值服从正态分布，与此正态性要求等价的是残差
服从正态分布。（残差图、正态概率图、残差直方图）
等方差（Equal variance）：指对应不同的 X 值，Y 值的总体变异相同。（残差图）
简单线性回归是指只包含一个自变量，且呈线性变化趋势的线性回归模型，用以描述因变
量的总体均数与自变量之间的线性关系，亦称两变量间的依存变化关系。在实际应用中，
两变量之间的关系应有实际意义，不要把毫无关联的两种现象作回归分析。
简单线性回归的基本步骤：①绘制散点图，考察两变量是否有线性趋势及可疑的异常值；
②估计回归系数与截距；③对总体回归系数（t 检验）或回归方程（方差分析）进行假设检
验；④列出回归方程，绘制回归直线；⑤统计应用（预测和控制）。
在简单线性回归模型中，由于只有一个自变量，回归模型的方差分析等价于对回归系数 t 检验，且t= √ F。
对于服从双变量正态分布的同一组资料，若同时做了相关分析和回归分析，则相关系数的 t 检验与回归系
数的 t 检验等价。
简单线性回归方差包括截距和回归系数两个参数，通常采用最小二乘估计。回归分析的假
设检验分两种情况，分别是针对总体回归方程的方差分析，和针对总体回归系数的 t 检验。
通过对 Y 的总变异分解有助于理解简单线性回归分析的基本思想，即 Y 的离均差平方和（

SS总）分解为回归平方和（ SS回归）和残差平方和（ SS残差）。
线性回归的主要用途为预测与控制。在实际应用中，要注意回归方程不可随意外延，即简
单线性回归方程的适用范围一般以自变量的取值范围为限，除非有充分理由证明在此范围
外依然有效，否则预测或控制不宜超出此限。
当两变量变化趋势为非线性时，可考虑拟合非线性回归方程，常用的曲线包括指数曲线、
多项式曲线、双曲线和 logistic 曲线等。
总体回归系数的区间估计：
b±tα Sb
, ( n−2)
2
PS: Sb 为样本回归系数的标准误，可直接由 SPSS 得到。
均值的置信区间计算：
^
 当 X 为某定值时，Y 的均数（1-α ）置信区间为：Y ± t α , ( n−2) S ^Y
2
^
 个体值 Y 的预测区间：Y ± t α , ( n−2) S ^Y
2
√ √ √
2 2
SS 残差 1 ( X i −X ) 1 ( X i−X ) ）
（ SY ∙ X = ， S Y^ =S Y ∙ X + ， S =S 1+ +
n−2 n ∑ ( X −X )2 Y Y ∙X
n ∑ ( X−X )2
当n 相当大， X i 离 X 非常接近时， SY ≈ S Y ∙ X
^ 的标准误； SY 是Y 的标准差。
PS： SY ∙ X 是回归的残差标准差。 S Y^ 是Y
注意：均数的置信区间与个体值的预测区间意义不同，前者是 X 取某一定值时，Y 的总体

均数所在范围；后者是 X 取某一定值时，Y 的可能范围。
两变量不是线性关系时怎么办？
对血药浓度与时间效应曲线、生长曲线、剂量反应关系等，可采用曲线拟合的方法。
1. 指数曲线：又称指数生长曲线，双变量资料中，当自变量 X 增加时，因变量 Y 随
之增加（或减少）得更快。
2. 多项式曲线：加入二次、三次多项式，适合标准曲线的绘制。
3. logistic 曲线：又称 Pearl-Reed 曲线，呈拉长的 S 形曲线，多用于发育、动态率、
剂量反应关系以及人口等方面的研究。
4. 双曲线：适用于弯曲程度比指数曲线还大的资料，如肌肉张力、神经生理方面强
度间期数据的分析。
抽样调查研究
抽样方法：
1. 概率抽样方法：单纯随机抽样、系统抽样、分层抽样、整群抽样；
2. 非概率抽样：方便抽样、判断抽样、配额抽样、雪球抽样等。
3. 概率抽样：保证总体中每个观察单位有同等的概率被抽到样本中，随机性好，代表
性强。
抽样方法：
1) 单纯随机抽样：先编号、再抽签或随机数字法。优点：易于估计误差。缺点：总体大
时编号困难，且在个体差异大、抽样比例较小时所得样本的代表性较差。
2) 系统抽样：将总体中个体的编号（如学号、门牌号）按照某种确定的规则（抽样间隔
确定）抽取，又称机械抽样。优点：简单、省时；抽样误差小于随机抽样。缺点：当
观察单位间存在某种趋势（如周期性变化）时，可能产生偏倚。
3) 分层随机抽样：先将总体中所有观察单位按照主要特征（如年龄、性别、病情等）分
为若干层，然后在各层中进行随机抽样，又称类型抽样。要求：层内个体差异越小越
好，层间差异越大越好。根据各层抽取数量的不同，分为比例分层法和最优分层法。
优点：抽样误差最小，各层可独立分析，层间可进行比较。缺点：分层较多时，调查
和分析较麻烦。
分层随机抽样——比例分层法&最优分层法
a) 比例分层法：大层多抽，小层少抽。各层样本含量与该层单位数量成比例。
b) 最优分层法：大层多抽，变异度大也多抽。各层样本含量既与该层单位数量呈正
比，又与该层内变异度的大小成正比。
4) 整群抽样：以群体为基本单位抽样。“群”间差异小、抽取的“群”多，则样本的代
表性好。优点：便于组织和质量控制，由于在同一地区进行调查工作，可节省人力、
物力和财力。缺点：抽样误差大。
5) 多阶段抽样：可与上述四种方法联合使用。将整个抽样过程分为若干阶段进行抽样的
方法。
抽样误差排序：
整群抽样 > 单纯随机抽样 > 系统抽样 > 分层随机抽样
实验研究设计
干预性研究的设计：
1、实验设计的基本步骤：
1) 受试对象的选择；
2) 样本含量的确定；
3) 如何设定合适的对照组；
4) 确定拟考察的实验因素；
5) 采取科学方法对受试对象分组；
6) 确定合适的实验设计类型；
2、实验设计的三要素：
1) 受试对象：纳入标准和排除标准
2) 试验因素：控制重要和非试验因素（其他）
3) 实验效应：客观指标和主观指标；灵敏度和特异性；准确和精密
3、实验设计的四原则：
1) 对照
i. 空白对照：对照组不施加任何措施。
ii. 标准对照：现有的公认的经典治疗方法或标准治疗方法；或以现有的标准值
或正常值作为对照。
iii. 自身对照：对照与实验在统一为受试者身上进行。
iv. 相互对照：有时需要考察的因素不能取零水平（如反应温度等），使其在不
同该条件下实验，从而互相对照。
v. 实验对照：仅含非实验因素的实验组（操作相同，但不含试验因素的对照），
如仅注射生理盐水的对照组，此时若为空白对照则不予注射。
vi. 安慰剂对照：为排除心理活动对受试者疾病发生、发展及预后的影响，对照
组受试者给予无药理活性的安慰剂。（与实验对照区别是安慰剂针对心理，
即表面相同）
vii. 历史对照（一般不宜采用）：以历史资料作为对照。
2) 重复：重复实验、重复取样、重复测量。可见准确性。
3) 随机：使实验组与对照组在非实验因素的分布方面尽量保持均衡一致。降低系统
误差的影响，贯穿于设计和实施全过程（样本代表性、组间可比性、排除实验顺
序影响）
4) 均衡：使试验组与对照组之间的非实验因素力求均衡一致——使可比
Q：随机和均衡区别？
4、实验设计方案：
1) 完全随机设计：设计和统计分析都比较简单，但试验效率较低，只能考察一个因
素对观测结果的影响情况。
2) 配对设计：优点：能有效降低来自个体差异对观测结果的影响，从而减小实验误
差，提高试验效率。但配对的条件应当是本实验研究中对观测结果有重要影响的
非试验因素，不能随便选取一个非试验因素作为配对条件。
3) 随机区组设计：是在单因素设计的基础上，多考虑一个区组因素。区组因素反映
了受试对象在重要条件上的差异，若不将其排除，必然会影响实验因素各水平之
间差别大小的正确评价。
4) 交叉设计（Cross-over design）：成组交叉设计和配对交叉设计（较前者好）。
i. 优点：①每个个体均接受两种处理，控制个体差异，节约样本含量； ②平衡
实验顺序对结果的影响。
ii. 缺点：①时间长，不适用于具有自愈倾向或病程短的研究； ②两种处理之间
应具有足够长的洗脱期；③数据缺失会增加统计的困难。
iii. 应用：①药物在短期内有效（如一到两周内）；②药效不持久（没有剩余效
应）。
5) 析因设计（Factorial design）：实验中涉及 k（k ≥ 2）个实验因素时，若将这 k 个

因素全面和，设组合数为 m，便有 m 个不同的实验条件，若这 m 个实验条件同时
实施，不分顺序，且各个因素对观测指标的影响地位平等，用以分析各试验因素
以及它们相互配合的效应，则成为析因设计，或全因子设计。
i. 是一种比较常见的多因素实验设计。因素和水平数不多时，可以考虑使用析
因设计。
6) 重复测量设计（Repeated measure design）：按实验分组因素将受试对象分为若
干个组，每一组受试对象接受一种特定的处理；在几个不同的时间点上从同一受
试对象（或样品）身上重复获得变量的挂测值，这种安排实验的方法称为重复测
量设计。
i. 可以减少样本含量；
ii. 可考察指标随时间退役的动态变化趋势；
iii. 缺点：在同一受试者身上，不同时间点测量结果常有关联——需采用较复杂
的统计分析方法
5、 “四原则”要点？
1) 随机原则：严格按照随即原则分配受试对象，根据实际具体情况试实施最合适的
随机化（如分层随机）。
2) 对照原则：必须设置合理对照组，通常是多种对照形式共存。
3) 重复原则：基于一定的先验知识和控制两类错误率的上限，合理地估计出所需要
的样本含量。
4) 均衡原则：从考虑“三要素“开始到落实随机、对照、重复三个原则为止的全过
程种，每一个环节都应尽可能做到均衡，使一切非实验因素对各组的影响基本一
致。
6、样本量的估算——比较两组测定值的均数
1) 预计欲比较的量总体参数的差值δ ；
2) 预计总体标准差σ ；
3) 允许出现假阳性结果的机会α ；
4) 允许出现假阴性结果的机会 β 。
比较两组发生某结局的百分比
(1) 预计一个组发生某结局的百分比约为1
(2) 预计另一组发生某结局的百分比约为2
(3) 允许犯假阳性错误的机会
(4) 允许犯假阴性错误的机会
Logistic 回归
logistic 回归参数估计：
1. 最大似然法：统计量为lnL
L0
2. 回归模型的假设检验——似然比检验，统计量为 G。 G=−2 ln （），（ L0 < L1
L1
）G 值越小越好，则模型的拟合效果越好。其中， L0对应 H 0 的最大似然， L1对应于
H 1的最大似然。
注意： L0和 L1都是小数，且 L0 < L1，因而 ln L0和 ln L1都是负数，且 ln L0< ln L1，从而
−2 ln L0 >−2 ln L1.可以证明，当样本含量较大时，在 H 0成立的条件下，G 近似的服
从自由度为 m 的 X 2 分布。若 X 2 值远大于自由度为 m 的 X 2 分布临界值，或 P 值很小，

则拒绝 H 0，可认为含有 m 个自变量的 logistic 回归模型成立。
3. 似然比检验可以用于比较两个变量个数不同的模型。设m 0和m 1分别为变量较少的模型
和变量较多的模型的变量的个数，m 0 <m 1.
H 0 :变量较少的模型成立； H 1 :变量较多的模型成立
当样本含量较大时，在 H 0成立的条件下， G 近似地服从自由度m1−m0的 X 2 分布。
若 X 2 值远大于自由度为m 1−m 0的 X 2 分布临界值，或 P 值很小，则拒绝 H 0，采纳变量
较多的模型；否则，不拒绝 H 0 ，采纳变量较少的模型。
4. 回归系数的假设检验——Wald，若 Wald X 2 值远大于自由度为 1 的 X 2 临界值，则拒绝
H 0，可认为 β i ≠ 0
5. 拟合优度检验：用于检验所选模型与实际数据的吻合程度，评价模型的预测值与实际
观测值的一致性。
a) 使用 Hosmer-Lemeshow 检验，实质为比较实际观察聘书与模型理论频数的
Pearson X 2 检验。
b) 若得到的检验统计量的数值远小于相应自由度的 X 2 分布临界值，或 P 值较大，则
可认为模型拟合较好。
c) 除 Hosmer-Lemeshow 检验，Pearson 检验（Pearson test）和偏差检验（deviation
test）也常用来进行拟合优度检验，且三者均以 X 2 检验的基本原理为基础，一般
结果相近。
6. Logistic 回归自变量的筛选：类似于多重线性回归，有前进法、后退法和逐步法等，检
验统计量不同于多重线性回归，为似然比检验。
7. 注意：
a) 由于病例-对照研究中，病例与对照的比例都是人为定好的，不能代表自然人群中
真是的病例与对照的比例。上述常数项并不是各个自变量取值为 0 时人群患病优
势估计的对数，因此这里的常数项没有实际意义，该回归模型不能直接在人群中
用于预测。如果希望将该模型用于预测，需要知道人群中的真实患病率，对常数
项进行校正，具体公式还需自行查阅。
b) Logistic 回归适用情况：
i. 队列研究
ii. 病例-对照研究
iii. 横断面研究等
8. 多分类 Logistic 回归——无序、有序
9. Logistic 回归两个主要用途：
a) 影响因素分析，求出各自变量对应的 OR 值；
b) 可以求出因变量各类发生的概率用于预测。
10. 条件 logistic 回归：因为常数项被约掉了，因而不能作预测，只能用于危险因素分析。
随机对照试验——CONSORT
观察性研究——STROBE
系统综述和 meta 分析——PRISMA
诊断精确性研究——STARD
Youden 指数，越接近于 1 越好（此时真阳性率为 100%，假阳性率为 0）

粗一致率，又称准确度
灵敏度和特异度为常数时，对于较大的患病率，阳性预测值越高预测价值越高；
阳性似然比，值越大其证实疾病的能力越强；阴性似然比，值越小则排除疾病的能力越强。

统计复习资料

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

统计复习资料

Uploaded by

Copyright:

Available Formats

统计复习资料——ZQX

二项分布是一种离散型概率分布。参数 n 称为离散参数，只能取正整数；参数 π 是事件 A

标准差（ S）标准误（ S X , S p , SEM ）

对定量资料前提条件假设：正态性？符合则进行均数（ X ）以及标准差（ S）的统计描述，

R×C 不能有 1/5 以上的处理方法：

R×C 列联表理论频数不满足2 检验的要求时，可考虑选择如下方法处理：

关联性分析（线性关联的程度和方向，双变量正态分布 Pearson，非正态分布 Spearman）

联系数 r 介于0 和 √ 0.5之间，其数值越大，关联程度越高；总体关联系数是否等

通过对 Y 的总变异分解有助于理解简单线性回归分析的基本思想，即 Y 的离均差平方和（

PS: Sb 为样本回归系数的标准误，可直接由 SPSS 得到。

注意：均数的置信区间与个体值的预测区间意义不同，前者是 X 取某一定值时，Y 的总体

5) 析因设计（Factorial design）：实验中涉及 k（k ≥ 2）个实验因素时，若将这 k 个

注意： L0和 L1都是小数，且 L0 < L1，因而 ln L0和 ln L1都是负数，且 ln L0< ln L1，从而

−2 ln L0 >−2 ln L1.可以证明，当样本含量较大时，在 H 0成立的条件下，G 近似的服

从自由度为 m 的 X 2 分布。若 X 2 值远大于自由度为 m 的 X 2 分布临界值，或 P 值很小，

Youden 指数，越接近于 1 越好（此时真阳性率为 100%，假阳性率为 0）

You might also like

统计复习资料

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

统计复习资料

Uploaded by

Copyright:

Available Formats

统计复习资料——ZQX

二项分布是一种离散型概率分布。参数 n 称为离散参数，只能取正整数；参数 π 是事件 A

标准差（ S） 标准误（ S X , S p , SEM ）

对定量资料前提条件假设：正态性？符合则进行均数（ X ）以及标准差（ S）的统计描述，

R×C 不能有 1/5 以上的 处理方法：

R×C 列联表理论频数不满足2 检验的要求时，可考虑选择如下方法处理：

关联性分析（线性关联的程度和方向，双变量正态分布 Pearson，非正态分布 Spearman）

联系数 r 介于0 和 √ 0.5之间，其数值越大，关联程度越高；总体关联系数是否等

通过对 Y 的总变异分解有助于理解简单线性回归分析的基本思想，即 Y 的离均差平方和（

PS: Sb 为样本回归系数的标准误，可直接由 SPSS 得到。

注意：均数的置信区间与个体值的预测区间意义不同，前者是 X 取某一定值时，Y 的总体

5) 析因设计（Factorial design）：实验中涉及 k（k ≥ 2）个实验因素时，若将这 k 个

注意： L0和 L1都是小数，且 L0 < L1，因而 ln L0和 ln L1都是负数，且 ln L0< ln L1，从而

−2 ln L0 >−2 ln L1.可以证明，当样本含量较大时，在 H 0成立的条件下，G 近似的服

从自由度为 m 的 X 2 分布。若 X 2 值远大于自由度为 m 的 X 2 分布临界值，或 P 值很小，

Youden 指数，越接近于 1 越好（此时真阳性率为 100%，假阳性率为 0）

You might also like

标准差（ S）标准误（ S X , S p , SEM ）

R×C 不能有 1/5 以上的处理方法：