You are on page 1of 34

当不同潜在类别增长轨迹类型不同时,三种增长混合模型的比较

Comparison of Three Approaches to Class Enumeration in Growth Mixture Modeling


when Time Structures are Variant Across Latent Classes

小组成员:黄熙彤,何颖诗,肖童
2023.05.08

《 Structural Equation Modeling: A Multidisciplinary


Journal 》
(Lee & Whittaker, 2022)
01 基础知识

02 文献汇报
CONTENTS

03 思考
追踪研究 追踪研究模型 模型拟合指标

横断研究

在同一个时间点对不同年龄个体进行观察、测量或实验,以揭示个体心理发展特点或规律的一种研究设计。

存在问题

 变量相互关系的不确定性:横断研究会导致不准确的参数检验和显著性检验,且只反映了短时间内的

变量之间的关系,如果选择不同的时间框架,可能会得到完全不同的研究结果;

 共同方法变异导致的偏差:大多数横截面研究是由研究对象在单个时间点完成的,导致研究的有效性

比多时间点研究的有效性低很多。

3
( 胥彦 , 李超平 , 2019)
追踪研究 追踪研究模型 模型拟合指标

追踪研究( Longitudinal Study )

追踪研究也叫纵向研究,是在比较长的时间内,对一个个体或一些个体的心理发展进行有系统的定期的研究。

特征

 重复测量所有相关变量;  强调变量的动态变化;

 测量次数不少于 3 次;  有助确定变量先后顺序。

关注问题

 均值差异比较;  总体发展趋势及差异;

 多变量相互影响;  动态变化过程。

4
( 胥彦 , 李超平 , 2019; 刘源等 , 2022)
追踪研究 追踪研究模型 模型拟合指标

潜增长曲线模型

潜增长曲线模型 (Latent Growth Curve Model, LGM) :能够比较总体发展趋势和个体差异


以及如何受预测变量的影响,在纵向数据中应用广泛。

 构建个体的回归方程

𝑦 𝑖𝑡 =𝛼𝑖 𝑡 + 𝛽 𝑖 𝑡 𝜆𝑖 𝑡 + 𝜀 𝑖𝑡

图 1 个体成长轨迹

5
( 王孟成 , 毕向阳 , 2020)
追踪研究 追踪研究模型 模型拟合指标

μβ
μα
 构建个体的回归方程
α β ζβi
𝑦 𝑖𝑡 =𝛼𝑖 𝑡 + 𝛽 𝑖 𝑡 𝜆𝑖 𝑡 + 𝜀 𝑖𝑡 ζαi

• 为个体 i 在时间点 t 的得分 1 1 1 2 3


 个体初始值和成长轨迹上的差异: 0 1
1
• 为个体 i 成长轨迹的截距,表示变量的初始水平 y1 y2 y3 y4
• 𝛼 𝑖=𝜇
为个体 𝛼 + 𝜉𝛼 𝑖
i 成长轨迹的斜率,表示变量的变化速度
• 𝛽 𝑖 =𝜇 𝛽 + 𝜉 𝛽𝑖
为随时间变化的载荷,常用 0,1,2 等来代表线性关系
e1 e2 e3 e4
• 为个体 i 在时间点 t 的残差
• 和 为固定系数,表示总体平均的初始值和变化率 2
2 2 2
𝑆𝑒 𝑆𝑒 𝑆𝑒 𝑆𝑒
• 和 为随机系数,表示个体的初始值和变化率与总体的差异
图 2 LGM 示例

6
( 王孟成 , 毕向阳 , 2020)
追踪研究 追踪研究模型 模型拟合指标

非线性潜增长模型

二次增长模型
𝛼 𝑖=𝜇 𝛼 + 𝜉 𝛼 𝑖
2
𝑦 𝑖𝑡 =𝛼𝑖 + 𝛽1 𝜆𝑡 + 𝛽 2 𝜆 + 𝜀 𝑖𝑡
i i
𝑡

多阶段增长模型

多阶段增长模型 (piecewise growth model, PGM) :通过定义不同阶段的发展曲线,描述某一特质


在不同的发展阶段是否有不同的发展趋势和规律。

 以两阶段增长模型为例 𝛼 𝑖=𝜇 𝛼 + 𝜉 𝛼 𝑖
𝑦 𝑖𝑡 =𝛼𝑖 𝑡 + 𝛽 1 𝑖 𝑡 𝜆1 𝑖𝑡 + 𝛽 2 𝑖 𝑡 𝜆 2𝑖 𝑡 + 𝜀𝑖𝑡
• 和 表示个体 i 在第一阶段和第二阶段成长轨迹的斜率

7
( 刘源等 , 2013)
追踪研究 追踪研究模型 模型拟合指标

潜增长曲线模型局限

传统的增长曲线模型假设群体同质,即群体内所有个体享有相同的平均增长轨迹,而有些情况下,
个体间差异较大,不能满足样本都来自同一群体的假设。

增长混合模型

增长混合模型 (growth mixture model, GMM) :允许群体异


质,即群体内个体可以有不同的平均增长轨迹。

 构建个体的回归方程
k
𝑦 𝑖𝑡 =∑ 𝑝 ( 𝑐𝑖 =𝑘 ) [¿ 𝛼𝑖𝑡𝑘 +𝜆𝑡 𝛽𝑖 𝑡𝑘+𝜀 𝑦 𝑖𝑡 𝑘 ]¿
𝑘=1 图 3 中国健康与营养调查部分样本

8
( 王孟成 , 毕向阳 , 2020)
追踪研究 追踪研究模型 模型拟合指标

 构建个体的回归方程 • 为个体 i 在时间点 t 的得分


k • 为个体 i 在类别 k 的概率
𝑦 𝑖𝑡 =∑ 𝑝 ( 𝑐𝑖 =𝑘 ) [¿ 𝛼𝑖𝑡𝑘 +𝜆𝑡 𝛽𝑖 𝑡𝑘+𝜀 𝑦 𝑖𝑡 𝑘 ]¿ • 为个体 i 在类别 k 成长轨迹的截距
𝑘=1 • 为个体 i 在类别 k 成长轨迹的斜率
• 为随时间变化的载荷,常用 0,1,2 等来代表线性关系
 类别内个体初始值和成长轨迹上的差异: • 为个体 i 在类别 k 中时间点 t 的残差

𝛼 𝑘𝑖 =𝜇 𝛼 𝑘 +𝜉 𝛼 𝑖𝑘
𝛽 𝑘 𝑖=𝜇 𝛽 𝑘+ 𝜉 𝛽𝑖𝑘
• 和 为固定系数,表示在类别 k 总体平均的初始值和变化率
• 和 为随机系数,表示在类别 k 个体的初始值和变化率与总体的差异

9
( 王孟成 , 毕向阳 , 2020)
追踪研究 追踪研究模型 模型拟合指标

增长混合模型局限

传统的增长混合模型假设各类别潜在增长轨迹类型相同,但是在有些情况下,各类别潜在增长轨迹类型不同。

替代模型(允许各类别潜在轨迹类型不同)

 Unstructured Mixture Model, UMM


 Latent Basis Model, LBM

图 4 儿童适应在不同时间点的增长轨迹图
10
追踪研究 追踪研究模型 模型拟合指标

增长混合模型分布函数
• 为有 k 个类别的增长混合模型的分布函数
𝑘 • 为类别 k 的比例
𝑓 ( 𝑦|𝑐=𝑘 )=∑ 𝑝𝑘 𝑓 𝑘 (𝑦 ∨𝜇 k , ∑k ) • 为类别 k 的均值矩阵
𝑘=1 • 为类别 k 的方差 - 协方差矩阵

• 为类别 k 的时间载荷矩阵,描述增长轨迹随时间的变化
𝜇 k = Λ𝑘 𝜂 𝑘
• 为类别 k 的潜在增长因子,包括截距斜率
𝑇
∑ k = Λ 𝑘 Ψ 𝑘 Λ + Θ𝑘
𝑘 • 为类别 k 中个体间变异
• 为类别 k 中个体内变异即测量误差

传统 GMM 模型:设置 在各类别相等,即各类别潜在增长轨迹类型相同;

替代模型(允许各类别潜在轨迹类型不同)
 Unstructured Mixture Model, UMM :设置 和 跨类别自由估计;

 Latent Basis Model, LBM 𝜇 k =𝜂 0 𝑘 ∗ 𝜆0 + 𝜂 1 𝑘 ∗ 𝜆1 其中两个时间点载荷固定为 0,1 ,其他自由估计

11
追踪研究 追踪研究模型 模型拟合指标

模型总结
表 1 模型总结表

模型 群体同质 各类别潜在增长轨迹类型 模型假设

LGM 是 无分类 群体同质

GMM 否 相同 时间载荷矩阵跨类别相等

UMM 否 不同 各类别的均值矩阵和方差 - 协方差矩阵跨类别自由估计

LBM 斜率的时间载荷矩阵中两个元素固定为 0,1 ,其他自由估


否 不同

12
追踪研究 追踪研究模型 模型拟合指标

模型拟合指标

 模型评价指标

BIC (Bayesian Information Criterion)


aBIC (Adjusted-sample Bayesian Information Criterion)
CAIC (Consistent Akaike Information Criterion) L 为似然函数, p 为模型参数个数, N 为样本数量

[ ]
2
n ^
𝑓 (𝑦 𝑗 ∨𝑧 𝑗 ; 𝜃)
值越小,模型拟合越好
^2 1
𝜔 = ∑ 𝑙𝑜𝑔
LMR LRT (Lo-Mendell-Rubin loglikelihood test)
2 𝑗=1 𝑔(𝑦 𝑗 ∨𝑧 𝑗 ; 𝛾^ )
比较竞争模型, p 值显著,则代表 k 分类模型显著优于 k-1 分类模型 f 和 g 为两个竞争模型的条件概率密度函数

|[ ( 𝜃^𝑖 −𝜃 𝑖)
]|
n
 参数估计精度
𝐴𝑅𝐵= ∑ /𝑛
𝑖−1 𝜃𝑖
ARB (absolute relative parameter estimate bias)
值越小,准确性越高,低于 0.10-0.15 表示可以忽略不计 n 、 分别表示重复次数、实际值和估计值
13
01 基础知识

02 文献汇报
CONTENTS

03 思考
当不同潜在类别间增长轨迹类型不同时,三种增长混合模型的比较

Comparison of Three Approaches to Class Enumeration in Growth Mixture Modeling


when Time Structures are Variant Across Latent Classes

小组成员:黄熙彤,何颖诗,肖童
2023.05.08

《 Structural Equation Modeling: A Multidisciplinary


Journal 》
(Lee & Whittaker, 2022)
问题提出 研究设计与结果 结果讨论

增长混合模型局限

传统的增长混合模型假设各类别潜在增长轨迹类型相同,即时间载荷矩阵跨类别相等,在各类别增长轨迹类型
不同的情况下,这种方法可能会导致错误的估计。

 研究现状

很多研究方差 - 协方差矩阵的错误设定对模型分类准确性的影响,较少研究时间载荷的错误设定对
模型分类准确性的影响。

有研究发现,在不同的样本量和样本比例条件下,时间载荷错误指定的模型和正确模型没有差异。
(Liu & Hancock, 2014)

16
问题提出 研究设计与结果 结果讨论

研究设计

 研究目的

当不同类别潜在增长轨迹类型不同的情况下,比较传统 GMM 与 UMM 和 LBM 的模型分类准


确性
和参数估计精度。
 具体步骤
1. 生成模拟数据;
2. 比较 GMM, UMM 和 LBM 拟合不同模拟条件下生成数据的分类准确性;
3. 比较 GMM, UMM 和原模型拟合不同模拟条件下生成数据的参数估计偏差。

17
问题提出 研究设计与结果 结果讨论

 模型评价指标
BIC (Bayesian Information Criterion) 值越小,模型拟合越好

aBIC (Adjusted-sample Bayesian Information Criterion) 分类准确性检验标准: 80% 以上


CAIC (Consistent Akaike Information Criterion) (Nylund et al., 2007)

LMR LRT (Lo-Mendell-Rubin loglikelihood test) 比较竞争模型, p 值显著,则代表 k 分类模型显著优于 k-1 分类模

ARB (absolute relative parameter estimate bias) 值越小,准确性越高,低于 0.10-0.15 表示可以忽略不计


(Muthén, Kaplan, & Hollis, 1987)

18
问题提出 研究设计与结果 结果讨论

一 . 生成模拟数据

 生成数据模型
有 7 个时间点的两类别增长混合模型,一个类别的增长轨迹为二次增长,另一个类别的增长轨迹为分段增长。

研究工具: R 3.6.2

 模拟条件
样本量: 300, 750, 1500
类别比例: 0.3/0.7, 0.5/0.5, 0.7/0.3
Degree of misfit ( 表示用假定模型估计实际模型参数的回归标准误 ) :高,低
 组合数: 3*3*2 = 18 ,每个条件重复 500 次

19
问题提出 研究设计与结果 结果讨论

重复次数
样本量
类别比例

Degree of misfit
类别比例设定

20
问题提出 研究设计与结果 结果讨论

分段增长模型,二次增长模型

,潜增长因子,包括截距,斜率

,时间载荷矩阵,描述变量随时间点的变化

,个体间误差

𝑘
,个体内误差即测量误差 𝑓 ( 𝑦|𝑐=𝑘 )=∑ 𝑝𝑘 𝑓 𝑘 (𝑦 ∨ Λ 𝑘 𝜂 𝑘 , Λ 𝑘 Ψ 𝑘 Λ𝑇𝑘 +Θ𝑘 )
𝑘=1
21
问题提出 研究设计与结果 结果讨论

22
问题提出 研究设计与结果 结果讨论

二 . 模型分类准确性
表 1 高 misfit 条件下的分类准确性 检验标准: 80% 以上可接

 结果
LBM 模型:在各模拟条件和拟合指标下的分类准确性都低于可接受的精度;

GMM 模型:在 BIC 和 CAIC 指标下,多数模拟条件下分类准确性可接受, LMR 和 aBIC 指标下则都不能


接受;
UMM 模型:除了在 aBIC 指标且样本量为 300 情况下,其余模拟条件和拟合指标下的分类准确性都可接受。

23
问题提出 研究设计与结果 结果讨论

二 . 模型分类准确性
表 2 低 misfit 条件下的分类准确性 检验标准: 80% 以上可接

 结果
LBM 模型:只有两种条件的分类准确性可接受,其余模拟条件和拟合指标下的分类准确性都低于可接受的精度;

GMM 模型:在 BIC 和 CAIC 指标下,多数模拟条件下分类准确性可接受, LMR 指标下,只有两种模拟条


件下分类准确性可接受, aBIC 指标下则都不能接受;
UMM 模型:多数模拟条件和拟合指标下的分类准确性都可接受。 24
问题提出 研究设计与结果 结果讨论
高 misfit

低 misfit

总体而言, UMM 的模型拟合准确性在高 misfit 比低 misfit 高;


在低 misfit 和样本量为 300 的情况下, UMM 的模型拟合准确性在 70/30 的类别比例下比 30/70 的类别比例
25
问题提出 研究设计与结果 结果讨论

二 . 模型分类准确性
表 3 各拟合指标下不同模拟条件和模型的分类准确性的方差分析结果

为效应量, M 为模型, S 为样本量, P 为类别比例, MF 为 degree of misfit


 结果
模型类型在所有拟合指标的效应量最大 (0.830-0.962) ,其次是模型类型和样本量的交互效应 (0.334-0.839) ;

事后检验结果显示,在任何模型拟合指标下, LBM 的模型拟合准确性都显著低于 GMM 和 UMM ;


在 aBIC 和 LMR 指标下, UMM 比 GMM 模型拟合准确性高,但在 BIC 和 CAIC 指标下, GMM 和
UMM 的模型拟合准确性没有显著差异。
26
问题提出 研究设计与结果 结果讨论

三 . 参数估计偏差
表 4 GMM 、 UMM 和原模型类别比例和各类别均值向量的参数估计偏差

ARB ,越低准确性越高,低
在类别比例上, UMM 的估计偏差低于 GMM ,且与原模型的估计偏差更接近; 于 0.10-0.15 可接受
在 GMM 各类别均值向量上,类别 1 的估计偏差远大于类别 2 的估计偏差,且都大于原模型的估计
27
问题提出 研究设计与结果 结果讨论

 UMM 各类别均值向量的参数估计偏差

在样本量为 300 且类别比例不均衡时,类别 1 估计偏差大于类别 2 的估计偏差;

在样本量为 750 和 1500 时,两类别的估计偏差较小;


总体来讲, UMM 与原模型的估计偏差接近。 28
问题提出 研究设计与结果 结果讨论

研究结论

1. 在模型分类准确性上, UMM 优于 GMM ,而 LBM 表现较差;


2. 在类别比例和各类别均值向量的参数估计偏差上, UMM 都小于 GMM ,且与原模型接近。

29
问题提出 研究设计与结果 结果讨论

研究讨论
 UMM 的模型拟合准确性在高 misfit 比低 misfit 高
因为在高 misfit 下,两个潜在类别之间的增长轨迹差别更大。由于 UMM 是饱和模型,估计所有的类内
参数,类间增长轨迹的高度区分更有利于参数估计。

 UMM 的模型拟合准确性在 70/30 的类别比例下比 30/70 的类别比例高


因为类别比例高会导致高 misfit 。在 70/30 的类别比例下,有更多样本的增长曲线模型是分段增长模型;
而在 30/70 的类别比例下,有较少样本的增长曲线模型是分段增长模型,两类别之间更难区分。

 LBM 模型在各模拟条件和拟合指标下的分类准确性都低于可接受的精度
可能是因为该模型将前两个时间负荷固定为 0 和 1 ,导致拟合实际模型困难。

30
问题提出 研究设计与结果 结果讨论

研究局限和展望

1. 本研究只探讨二分类模型,未来可以考虑更多分类的模型;
2. 本研究的增长曲线模型只考虑了分段增长模型和二次增长模型,未来可以考虑三次增长模型、指
数增长模型等更多模型;
3. 本研究假设数据没有缺失,未来可以考虑数据缺失对模型的影响;
4. 本研究没有具体解释 LBM 模型表现差的原因,需要未来的进一步研究。

31
01 基础知识

02 文献汇报
CONTENTS

03 思考
思考

可能的研究方向

对于 LBM 模型表现差的原因,本研究给出的解释是其将时间载荷的前两个时间点固定为 0 和
1 ,
但是本研究没有探讨将 0 和 1 固定在其他时间点的情况以及 LBM 模型表现差的原因,需要
未来进一步探讨。

33
感谢倾听,请批评指正
汇报人:肖童
2023.05.08

You might also like