【PPT】Comparison of Three Approaches to Class Enumeratio - Lee 和 Whittaker

当不同潜在类别增长轨迹类型不同时，三种增长混合模型的比较
Comparison of Three Approaches to Class Enumeration in Growth Mixture Modeling

when Time Structures are Variant Across Latent Classes
小组成员：黄熙彤，何颖诗，肖童
2023.05.08
《 Structural Equation Modeling: A Multidisciplinary

Journal 》
(Lee & Whittaker, 2022)
01 基础知识
02 文献汇报
CONTENTS
03 思考
追踪研究追踪研究模型模型拟合指标
横断研究
在同一个时间点对不同年龄个体进行观察、测量或实验，以揭示个体心理发展特点或规律的一种研究设计。
存在问题
 变量相互关系的不确定性：横断研究会导致不准确的参数检验和显著性检验，且只反映了短时间内的
变量之间的关系，如果选择不同的时间框架，可能会得到完全不同的研究结果；
 共同方法变异导致的偏差：大多数横截面研究是由研究对象在单个时间点完成的，导致研究的有效性
比多时间点研究的有效性低很多。
3
( 胥彦 , 李超平 , 2019)
追踪研究（ Longitudinal Study ）
追踪研究也叫纵向研究，是在比较长的时间内，对一个个体或一些个体的心理发展进行有系统的定期的研究。
特征
 重复测量所有相关变量；  强调变量的动态变化；
 测量次数不少于 3 次；  有助确定变量先后顺序。
关注问题
 均值差异比较；  总体发展趋势及差异；
 多变量相互影响；  动态变化过程。
4
( 胥彦 , 李超平 , 2019; 刘源等 , 2022)
潜增长曲线模型
潜增长曲线模型 (Latent Growth Curve Model, LGM) ：能够比较总体发展趋势和个体差异

以及如何受预测变量的影响，在纵向数据中应用广泛。
 构建个体的回归方程
𝑦 𝑖𝑡 =𝛼𝑖 𝑡 + 𝛽 𝑖 𝑡 𝜆𝑖 𝑡 + 𝜀 𝑖𝑡
图 1 个体成长轨迹
5
( 王孟成 , 毕向阳 , 2020)
μβ
μα
α β ζβi
𝑦 𝑖𝑡 =𝛼𝑖 𝑡 + 𝛽 𝑖 𝑡 𝜆𝑖 𝑡 + 𝜀 𝑖𝑡 ζαi
• 为个体 i 在时间点 t 的得分 1 1 1 2 3

 个体初始值和成长轨迹上的差异： 0 1
1
• 为个体 i 成长轨迹的截距，表示变量的初始水平 y1 y2 y3 y4
• 𝛼 𝑖=𝜇
为个体 𝛼 + 𝜉𝛼 𝑖
i 成长轨迹的斜率，表示变量的变化速度
• 𝛽 𝑖 =𝜇 𝛽 + 𝜉 𝛽𝑖
为随时间变化的载荷，常用 0,1,2 等来代表线性关系
e1 e2 e3 e4
• 为个体 i 在时间点 t 的残差
• 和为固定系数，表示总体平均的初始值和变化率 2
2 2 2
𝑆𝑒 𝑆𝑒 𝑆𝑒 𝑆𝑒
• 和为随机系数，表示个体的初始值和变化率与总体的差异
图 2 LGM 示例
6
( 王孟成 , 毕向阳 , 2020)
非线性潜增长模型
二次增长模型
𝛼 𝑖=𝜇 𝛼 + 𝜉 𝛼 𝑖
2
𝑦 𝑖𝑡 =𝛼𝑖 + 𝛽1 𝜆𝑡 + 𝛽 2 𝜆 + 𝜀 𝑖𝑡
i i
𝑡
多阶段增长模型
多阶段增长模型 (piecewise growth model, PGM) ：通过定义不同阶段的发展曲线，描述某一特质

在不同的发展阶段是否有不同的发展趋势和规律。
 以两阶段增长模型为例 𝛼 𝑖=𝜇 𝛼 + 𝜉 𝛼 𝑖
𝑦 𝑖𝑡 =𝛼𝑖 𝑡 + 𝛽 1 𝑖 𝑡 𝜆1 𝑖𝑡 + 𝛽 2 𝑖 𝑡 𝜆 2𝑖 𝑡 + 𝜀𝑖𝑡
• 和表示个体 i 在第一阶段和第二阶段成长轨迹的斜率
7
( 刘源等 , 2013)
潜增长曲线模型局限
传统的增长曲线模型假设群体同质，即群体内所有个体享有相同的平均增长轨迹，而有些情况下，
个体间差异较大，不能满足样本都来自同一群体的假设。
增长混合模型
增长混合模型 (growth mixture model, GMM) ：允许群体异

质，即群体内个体可以有不同的平均增长轨迹。
k
𝑦 𝑖𝑡 =∑ 𝑝 ( 𝑐𝑖 =𝑘 ) [¿ 𝛼𝑖𝑡𝑘 +𝜆𝑡 𝛽𝑖 𝑡𝑘+𝜀 𝑦 𝑖𝑡 𝑘 ]¿
𝑘=1 图 3 中国健康与营养调查部分样本
8
( 王孟成 , 毕向阳 , 2020)
 构建个体的回归方程 • 为个体 i 在时间点 t 的得分

k • 为个体 i 在类别 k 的概率
𝑦 𝑖𝑡 =∑ 𝑝 ( 𝑐𝑖 =𝑘 ) [¿ 𝛼𝑖𝑡𝑘 +𝜆𝑡 𝛽𝑖 𝑡𝑘+𝜀 𝑦 𝑖𝑡 𝑘 ]¿ • 为个体 i 在类别 k 成长轨迹的截距
𝑘=1 • 为个体 i 在类别 k 成长轨迹的斜率
• 为随时间变化的载荷，常用 0,1,2 等来代表线性关系
 类别内个体初始值和成长轨迹上的差异： • 为个体 i 在类别 k 中时间点 t 的残差
𝛼 𝑘𝑖 =𝜇 𝛼 𝑘 +𝜉 𝛼 𝑖𝑘
𝛽 𝑘 𝑖=𝜇 𝛽 𝑘+ 𝜉 𝛽𝑖𝑘
• 和为固定系数，表示在类别 k 总体平均的初始值和变化率
• 和为随机系数，表示在类别 k 个体的初始值和变化率与总体的差异
9
( 王孟成 , 毕向阳 , 2020)
增长混合模型局限
传统的增长混合模型假设各类别潜在增长轨迹类型相同，但是在有些情况下，各类别潜在增长轨迹类型不同。
替代模型（允许各类别潜在轨迹类型不同）
 Unstructured Mixture Model, UMM

 Latent Basis Model, LBM
图 4 儿童适应在不同时间点的增长轨迹图
10
增长混合模型分布函数
• 为有 k 个类别的增长混合模型的分布函数
𝑘 • 为类别 k 的比例
𝑓 ( 𝑦|𝑐=𝑘 )=∑ 𝑝𝑘 𝑓 𝑘 (𝑦 ∨𝜇 k , ∑k ) • 为类别 k 的均值矩阵
𝑘=1 • 为类别 k 的方差 - 协方差矩阵
• 为类别 k 的时间载荷矩阵，描述增长轨迹随时间的变化
𝜇 k = Λ𝑘 𝜂 𝑘
• 为类别 k 的潜在增长因子，包括截距斜率
𝑇
∑ k = Λ 𝑘 Ψ 𝑘 Λ + Θ𝑘
𝑘 • 为类别 k 中个体间变异
• 为类别 k 中个体内变异即测量误差
传统 GMM 模型：设置在各类别相等，即各类别潜在增长轨迹类型相同；
替代模型（允许各类别潜在轨迹类型不同）
 Unstructured Mixture Model, UMM ：设置和跨类别自由估计；
 Latent Basis Model, LBM 𝜇 k =𝜂 0 𝑘 ∗ 𝜆0 + 𝜂 1 𝑘 ∗ 𝜆1 其中两个时间点载荷固定为 0,1 ，其他自由估计
11
模型总结
表 1 模型总结表
模型群体同质各类别潜在增长轨迹类型模型假设
LGM 是无分类群体同质
GMM 否相同时间载荷矩阵跨类别相等
UMM 否不同各类别的均值矩阵和方差 - 协方差矩阵跨类别自由估计
LBM 斜率的时间载荷矩阵中两个元素固定为 0,1 ，其他自由估

否不同
计
12
模型拟合指标
 模型评价指标
BIC (Bayesian Information Criterion)

aBIC (Adjusted-sample Bayesian Information Criterion)
CAIC (Consistent Akaike Information Criterion) L 为似然函数， p 为模型参数个数， N 为样本数量
[ ]
2
n ^
𝑓 (𝑦 𝑗 ∨𝑧 𝑗 ; 𝜃)
值越小，模型拟合越好
^2 1
𝜔 = ∑ 𝑙𝑜𝑔
LMR LRT (Lo-Mendell-Rubin loglikelihood test)
2 𝑗=1 𝑔(𝑦 𝑗 ∨𝑧 𝑗 ; 𝛾^ )
比较竞争模型， p 值显著，则代表 k 分类模型显著优于 k-1 分类模型 f 和 g 为两个竞争模型的条件概率密度函数
|[ ( 𝜃^𝑖 −𝜃 𝑖)
]|
n
 参数估计精度
𝐴𝑅𝐵= ∑ /𝑛
𝑖−1 𝜃𝑖
ARB (absolute relative parameter estimate bias)
值越小，准确性越高，低于 0.10-0.15 表示可以忽略不计 n 、分别表示重复次数、实际值和估计值
13
01 基础知识
02 文献汇报
CONTENTS
03 思考
当不同潜在类别间增长轨迹类型不同时，三种增长混合模型的比较
Comparison of Three Approaches to Class Enumeration in Growth Mixture Modeling

when Time Structures are Variant Across Latent Classes
小组成员：黄熙彤，何颖诗，肖童
2023.05.08
《 Structural Equation Modeling: A Multidisciplinary

Journal 》
(Lee & Whittaker, 2022)
问题提出研究设计与结果结果讨论
增长混合模型局限
传统的增长混合模型假设各类别潜在增长轨迹类型相同，即时间载荷矩阵跨类别相等，在各类别增长轨迹类型
不同的情况下，这种方法可能会导致错误的估计。
 研究现状
很多研究方差 - 协方差矩阵的错误设定对模型分类准确性的影响，较少研究时间载荷的错误设定对
模型分类准确性的影响。
有研究发现，在不同的样本量和样本比例条件下，时间载荷错误指定的模型和正确模型没有差异。
(Liu & Hancock, 2014)
16
研究设计
 研究目的
当不同类别潜在增长轨迹类型不同的情况下，比较传统 GMM 与 UMM 和 LBM 的模型分类准

确性
和参数估计精度。
 具体步骤
1. 生成模拟数据；
2. 比较 GMM, UMM 和 LBM 拟合不同模拟条件下生成数据的分类准确性；
3. 比较 GMM, UMM 和原模型拟合不同模拟条件下生成数据的参数估计偏差。
17
 模型评价指标
BIC (Bayesian Information Criterion) 值越小，模型拟合越好
aBIC (Adjusted-sample Bayesian Information Criterion) 分类准确性检验标准： 80% 以上

CAIC (Consistent Akaike Information Criterion) (Nylund et al., 2007)
LMR LRT (Lo-Mendell-Rubin loglikelihood test) 比较竞争模型， p 值显著，则代表 k 分类模型显著优于 k-1 分类模
型
ARB (absolute relative parameter estimate bias) 值越小，准确性越高，低于 0.10-0.15 表示可以忽略不计

(Muthén, Kaplan, & Hollis, 1987)
18
一 . 生成模拟数据
 生成数据模型
有 7 个时间点的两类别增长混合模型，一个类别的增长轨迹为二次增长，另一个类别的增长轨迹为分段增长。
研究工具： R 3.6.2
 模拟条件
样本量： 300, 750, 1500
类别比例： 0.3/0.7, 0.5/0.5, 0.7/0.3
Degree of misfit ( 表示用假定模型估计实际模型参数的回归标准误 ) ：高，低
 组合数： 3*3*2 = 18 ，每个条件重复 500 次
19
重复次数
样本量
类别比例
Degree of misfit
类别比例设定
20
分段增长模型，二次增长模型
，潜增长因子，包括截距，斜率
，时间载荷矩阵，描述变量随时间点的变化
，个体间误差
𝑘
，个体内误差即测量误差 𝑓 ( 𝑦|𝑐=𝑘 )=∑ 𝑝𝑘 𝑓 𝑘 (𝑦 ∨ Λ 𝑘 𝜂 𝑘 , Λ 𝑘 Ψ 𝑘 Λ𝑇𝑘 +Θ𝑘 )
𝑘=1
21
22
二 . 模型分类准确性
表 1 高 misfit 条件下的分类准确性检验标准： 80% 以上可接
受
 结果
LBM 模型：在各模拟条件和拟合指标下的分类准确性都低于可接受的精度；
GMM 模型：在 BIC 和 CAIC 指标下，多数模拟条件下分类准确性可接受， LMR 和 aBIC 指标下则都不能

接受；
UMM 模型：除了在 aBIC 指标且样本量为 300 情况下，其余模拟条件和拟合指标下的分类准确性都可接受。
23
表 2 低 misfit 条件下的分类准确性检验标准： 80% 以上可接
受
 结果
LBM 模型：只有两种条件的分类准确性可接受，其余模拟条件和拟合指标下的分类准确性都低于可接受的精度；
GMM 模型：在 BIC 和 CAIC 指标下，多数模拟条件下分类准确性可接受， LMR 指标下，只有两种模拟条

件下分类准确性可接受， aBIC 指标下则都不能接受；
UMM 模型：多数模拟条件和拟合指标下的分类准确性都可接受。 24
高 misfit
低 misfit
总体而言， UMM 的模型拟合准确性在高 misfit 比低 misfit 高；

在低 misfit 和样本量为 300 的情况下， UMM 的模型拟合准确性在 70/30 的类别比例下比 30/70 的类别比例
25
表 3 各拟合指标下不同模拟条件和模型的分类准确性的方差分析结果
为效应量， M 为模型， S 为样本量， P 为类别比例， MF 为 degree of misfit

 结果
模型类型在所有拟合指标的效应量最大 (0.830-0.962) ，其次是模型类型和样本量的交互效应 (0.334-0.839) ；
事后检验结果显示，在任何模型拟合指标下， LBM 的模型拟合准确性都显著低于 GMM 和 UMM ；

在 aBIC 和 LMR 指标下， UMM 比 GMM 模型拟合准确性高，但在 BIC 和 CAIC 指标下， GMM 和
UMM 的模型拟合准确性没有显著差异。
26
三 . 参数估计偏差
表 4 GMM 、 UMM 和原模型类别比例和各类别均值向量的参数估计偏差
ARB ，越低准确性越高，低
在类别比例上， UMM 的估计偏差低于 GMM ，且与原模型的估计偏差更接近；于 0.10-0.15 可接受
在 GMM 各类别均值向量上，类别 1 的估计偏差远大于类别 2 的估计偏差，且都大于原模型的估计
27
 UMM 各类别均值向量的参数估计偏差
在样本量为 300 且类别比例不均衡时，类别 1 估计偏差大于类别 2 的估计偏差；
在样本量为 750 和 1500 时，两类别的估计偏差较小；

总体来讲， UMM 与原模型的估计偏差接近。 28
研究结论
1. 在模型分类准确性上， UMM 优于 GMM ，而 LBM 表现较差；

2. 在类别比例和各类别均值向量的参数估计偏差上， UMM 都小于 GMM ，且与原模型接近。
29
研究讨论
 UMM 的模型拟合准确性在高 misfit 比低 misfit 高
因为在高 misfit 下，两个潜在类别之间的增长轨迹差别更大。由于 UMM 是饱和模型，估计所有的类内
参数，类间增长轨迹的高度区分更有利于参数估计。
 UMM 的模型拟合准确性在 70/30 的类别比例下比 30/70 的类别比例高

因为类别比例高会导致高 misfit 。在 70/30 的类别比例下，有更多样本的增长曲线模型是分段增长模型；
而在 30/70 的类别比例下，有较少样本的增长曲线模型是分段增长模型，两类别之间更难区分。
 LBM 模型在各模拟条件和拟合指标下的分类准确性都低于可接受的精度
可能是因为该模型将前两个时间负荷固定为 0 和 1 ，导致拟合实际模型困难。
30
研究局限和展望
1. 本研究只探讨二分类模型，未来可以考虑更多分类的模型；
2. 本研究的增长曲线模型只考虑了分段增长模型和二次增长模型，未来可以考虑三次增长模型、指
数增长模型等更多模型；
3. 本研究假设数据没有缺失，未来可以考虑数据缺失对模型的影响；
4. 本研究没有具体解释 LBM 模型表现差的原因，需要未来的进一步研究。
31
01 基础知识
02 文献汇报
CONTENTS
03 思考
思考
可能的研究方向
对于 LBM 模型表现差的原因，本研究给出的解释是其将时间载荷的前两个时间点固定为 0 和
1 ，
但是本研究没有探讨将 0 和 1 固定在其他时间点的情况以及 LBM 模型表现差的原因，需要
未来进一步探讨。
33
感谢倾听，请批评指正
汇报人：肖童
2023.05.08

【PPT】Comparison of Three Approaches to Class Enumeratio - Lee 和 Whittaker

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

【PPT】Comparison of Three Approaches to Class Enumeratio - Lee 和 Whittaker

Uploaded by

Copyright:

Available Formats

当不同潜在类别增长轨迹类型不同时，三种增长混合模型的比较

Comparison of Three Approaches to Class Enumeration in Growth Mixture Modeling

《 Structural Equation Modeling: A Multidisciplinary

追踪研究（ Longitudinal Study ）

潜增长曲线模型 (Latent Growth Curve Model, LGM) ：能够比较总体发展趋势和个体差异

• 为个体 i 在时间点 t 的得分 1 1 1 2 3

多阶段增长模型 (piecewise growth model, PGM) ：通过定义不同阶段的发展曲线，描述某一特质

增长混合模型 (growth mixture model, GMM) ：允许群体异

 构建个体的回归方程 • 为个体 i 在时间点 t 的得分

 Unstructured Mixture Model, UMM

传统 GMM 模型：设置 在各类别相等，即各类别潜在增长轨迹类型相同；

 Latent Basis Model, LBM 𝜇 k =𝜂 0 𝑘 ∗ 𝜆0 + 𝜂 1 𝑘 ∗ 𝜆1 其中两个时间点载荷固定为 0,1 ，其他自由估计

模型 群体同质 各类别潜在增长轨迹类型 模型假设

LGM 是 无分类 群体同质

UMM 否 不同 各类别的均值矩阵和方差 - 协方差矩阵跨类别自由估计

LBM 斜率的时间载荷矩阵中两个元素固定为 0,1 ，其他自由估

BIC (Bayesian Information Criterion)

Comparison of Three Approaches to Class Enumeration in Growth Mixture Modeling

《 Structural Equation Modeling: A Multidisciplinary

当不同类别潜在增长轨迹类型不同的情况下，比较传统 GMM 与 UMM 和 LBM 的模型分类准

aBIC (Adjusted-sample Bayesian Information Criterion) 分类准确性检验标准： 80% 以上

ARB (absolute relative parameter estimate bias) 值越小，准确性越高，低于 0.10-0.15 表示可以忽略不计

GMM 模型：在 BIC 和 CAIC 指标下，多数模拟条件下分类准确性可接受， LMR 和 aBIC 指标下则都不能

GMM 模型：在 BIC 和 CAIC 指标下，多数模拟条件下分类准确性可接受， LMR 指标下，只有两种模拟条

总体而言， UMM 的模型拟合准确性在高 misfit 比低 misfit 高；

为效应量， M 为模型， S 为样本量， P 为类别比例， MF 为 degree of misfit

事后检验结果显示，在任何模型拟合指标下， LBM 的模型拟合准确性都显著低于 GMM 和 UMM ；

在样本量为 300 且类别比例不均衡时，类别 1 估计偏差大于类别 2 的估计偏差；

在样本量为 750 和 1500 时，两类别的估计偏差较小；

1. 在模型分类准确性上， UMM 优于 GMM ，而 LBM 表现较差；

 UMM 的模型拟合准确性在 70/30 的类别比例下比 30/70 的类别比例高

You might also like

传统 GMM 模型：设置在各类别相等，即各类别潜在增长轨迹类型相同；

模型群体同质各类别潜在增长轨迹类型模型假设

LGM 是无分类群体同质

UMM 否不同各类别的均值矩阵和方差 - 协方差矩阵跨类别自由估计