Professional Documents
Culture Documents
• 调查报告与分析 •
空气污染与疾病关系研究中广义相加模型 3 种
分布比较 *
顾峥嵘 1,2,王心雨 1,徐会 1,曾跃萍 1,宋菲 1,田剑 1,徐新 1,廉海荣 2,冯国双 1,3
【摘 要】目的 比较空气污染与疾病关系研究中广义相加模型中泊松分布、类泊松分布、负二项分布对研究结果
造 成 的 差 异 , 为 空 气 污 染 物 与 疾 病 的 相 关 研 究 提 供 方 法 参 考 。 方 法 收 集 福 棠 儿 童 医 学 研 究 中 心 病 案 首 页
(FUTURE)数据库中河南省郑州市儿童医院 2016 年 1 月 1 日 — 2019 年 12 月 31 日呼吸系统疾病住院病例的病案
首页数据及郑州市同一时期的空气污染和气象数据,采用广义相加模型的泊松分布、类泊松分布、负二项分布方法
分析臭氧(O3)与儿童呼吸系统疾病的关系。结果 对日住院病例数进行 Kolmogorov-Smirnov 拟合优度检验结果显
示,日住院病例数不服从泊松分布(D = 0.203,P < 0.001),但服从负二项分布(D = 0.055,P = 0.079);基于泊松分布、
类泊松分布和负二项分布的广义相加模型分析滞后 0~3 d 的平均效应结果显示,O3 对儿童呼吸系统住院病例数
的 RR(95 % CI)值分别为 1.003 9(1.001 5~1.006 4)、1.004 1(1.000 1~1.008 1)和 1.004 1(1.000 0~1.008 1)。结论 广义
相加模型中以病例数作为结局变量,当出现过度离散时首选负二项分布可减少假阳性错误且能更好地进行模型拟
合优度的比较。
【 关 键 词 】 空气污染;疾病;关系;广义相加模型;泊松分布;类泊松分布;负二项分布;比较
中图分类号:R 122.7;R 195.4 文献标识码:A 文章编号:1001-0580(2022)09-1199-04 DOI:10.11847/zgggws1137788
1 资料与方法
2 结 果
1.1 资料来源 收集 FUTURE 数据库 [12] 中郑州市
例。同期空气污染数据来源于郑州市空气质量监
100
测站,收集其中细颗粒物(particulate matter less than
2.5 μm in aerodynamic diameter,PM2.5)、可吸入颗粒
病例数(例)
80
物 ( particulate matter less than 10 μm in aerodynamic
diameter, PM10) 、 二 氧 化 氮 ( nitrogen dioxide, NO2) 、 60
二 氧 化 硫 ( sulfur dioxide , SO2) 、 O3 和 一 氧 化 碳
(carbon monoxide,CO)6 项指标的日均浓度。同期 40
郑州市气象数据资料来源于中国气象科学数据共
享服务网(http://datama. cn/),收集指标为日平均气
2016 2017 2018 2019 2020
温和日平均相对湿度。
年份
1.2 统计分析 采用R 4.0.5 统计软件进行Kolmogorov-
Smirnov 拟合优度检验,并构建广义相加模型计算 图 1 郑州市儿童医院 2016 — 2019 年儿童呼吸
模型的均方根误差。广义相加模型是广义线性模 系统住院病例数
型的半参数扩展,利用连接函数既可以拟合响应变 2.2 泊松分布及负二项分布的拟合(图 2) 对
量与解释变量的线性关系,也可以拟合它们之间的 日住院病例数进行的 Kolmogorov-Smirnov 拟合优度
的非参数关系,且允许解释变量的光滑函数以相加 检验结果显示,日住院病例数不服从泊松分布(D =
的形式引入模型 [14 – 15]。广义相加模型的基本形式 0.203,P < 0.001),但服从负二项分布(D = 0.055,P =
∑
n ∑
m ( ) 0.079),2 种分布的拟合情况见图 2。
0.20
j=1 j=1
严格单调且 g 可导的函数,被称为连接函数,它的 0.15
选取与响应变量 Y 的概率分布有关,本研究的响应
概率
0.10
变量为每日住院病例数,分别选择泊松分布、类泊
松分布和负二项分布;βi 表示参数关系的变量,本 0.05
研究主要包括 O3 浓度、是否节假日和周几;fj(·)表 0
示非参数关系的变量,本研究主要包括温度、湿度 0 50 100 150
儿童呼吸系统疾病日住院病例数(例)
和 日 期 效 应 [16]。 本 研 究 采 用 相 对 危 险 度 ( relative
risk, RR)来量化 O3 浓度对儿童呼吸系统疾病的影 注:虚线表示泊松分布,实线表示负二项分布。
响,RR 值反映了 O3 浓度每升高 10 μg/m3 造成日病 图 2 泊松分布与负二项分布的拟合情况
中国公共卫生 2022 年 9 月第 38 卷第 9 期 Chin J Public Health, Sept 2022 Vol.38 No.9 · 1201 ·
2.3 泊松分布、类泊松分布和负二项分布 3 种分 则 开 始 变 大 , 因 此 选 择 以 滞 后 3 d 作 为 滞 后 效 应 。
布下广义相加模型的滞后效应分析(表 1) 在 基于泊松分布、类泊松分布和负二项分布的广义相
校正了星期几、节假日、日期效应、温度和湿度等 加模型分析滞后 0~3 d 的平均效应结果显示,O3 对
变量后,分别拟合了滞后期为 0~3 d 的 O3 浓度与 儿童呼吸系统住院病例数的 RR(95 % CI)值分别为
日住院病例数的关系。结果显示,滞后 3 d 的 P 值较 1.003 9(1.001 5~1.006 4)、1.004 1(1.000 1~1.008 1)
滞后 1 d 和滞后 2 d 更接近 0.05,而滞后 4 d 的 P 值 和 1.004 1(1.000 0~1.008 1)。
表 1 广义相加模型 3 种分布的统计分析结果
3 讨 论 果,而不能采用泊松分布的结果。
本 研 究 对 滞 后 0~ 3 d 平 均 效 应 的 分 析 结 果 显
在空气污染与疾病例数的研究中,泊松分布常
示,基于泊松分布、类泊松分布和负二项分布广义
被用来描述响应变量 Y,但当 Y 的方差大于期望时
相 加 模 型 的 参 数 估 计 值 差 别 较 小 , 分 别 为 1.003 9、
会出现过度离散的问题,因此需要对泊松分布进行
1.004 1 和 1.004 1,提示分布选择对参数估计值的影
修正或寻找替代分布。Wedderburn [19] 在 1974 年提
响不大;但对标准误的影响较大,泊松分布、类泊松
出了 Quasi 似然函数,并在此基础上,为解决泊松分
分布和负二项分布对应的S x̄ 值分别为 1.248 1 × 10 – 4 、
布的过度离散问题提出了类泊松分布。Ye 等 [8] 在
2.046 1 × 10 – 4 和 2.076 0 × 10 – 4 。因此,广义相加模
2013 年则提出,由于负二项分布的方差总是大于同
型中,当响应变量出现过度离散时若继续使用泊松
均值泊松分布的方差,它也可以作为纠正过度离散
的一种方法。尽管类泊松分布和负二项分布均可 分布,尽管对参数估计值影响不大,但 S x̄ 值会被低
用于处理过度离散问题,但其原理不同。当泊松分 估,相应的置信区间会变窄,从而引起假阳性增大,
布的方差等于期望这一假定不满足时,类泊松分布 导致最终结论的偏倚 [20]。当使用类泊松分布和负
与负二项分布的处理方式不同,类泊松分布变量的 二项分布时,由于它们更好地修正了方差,使 S x̄ 值
方差是期望的一次函数,而负二项分布变量的方差 增大,置信区间更合理,因此假设检验的结果也更
则是期望的二次函数。从本研究结果看,不难发现 为可靠;且从 S x̄ 值来看,负二项分布修正的力度要
儿童呼吸系统日住院病例数存在过度离散问题:首 大于类泊松分布,当 P 值在 0.05 附近时尤其要注意。
先,日住院病例数的方差(345)显著大于期望(80); 此外,由于类泊松分布仅由均值和方差来表征,并不
其 次 , Kolmogorov-Smirnov 拟 合 优 度 检 验 提 示 该 数 一定具有分布形式,所以在比较类泊松分布的拟合
据分布偏离泊松分布较大,但与负二项分布更为接 优度时一般不选择赤池信息准则(Akaike information
近;最后,过度离散参数 > 1 且差异有统计学意义。 criterion,AIC)和贝叶斯信息准则(Bayesian information
因此,本研究应选择类泊松分布或负二项分布的结 criterion,BIC)等信息理论方法。尽管对 AIC 改进后的
· 1202 · 中国公共卫生 2022 年 9 月第 38 卷第 9 期 Chin J Public Health, Sept 2022 Vol.38 No.9
出版授权 作者同意以纸质版和网络版的形式同时出版 [ 16 ] Ravindra K, Rattan P, Mor S, et al. Generalized additive models:
building evidence of air pollution, climate change and human
参考文献 health[J]. Environment International, 2019, 132: 104987.
[ 17 ] 张丽, 相晓妹, 张水平, 等. 西安市空气污染对先天性心脏病影
[ 1 ] 魏俊妮, 薛淑莲, 路殿英, 等. 高血压日入院人数与空气污染物浓
响 [J]. 中国公共卫生, 2019, 35(10): 1416 – 1420.
度相关性研究 [J]. 中国预防医学杂志, 2018, 19(2): 101 – 105.
[ 18 ] 胡良平. 计数资料回归分析基础知识 [J]. 四川精神卫生, 2018,
[ 2 ] 范传刚, 明小燕, 王婧, 等. 宜昌市大气颗粒物对急救人次急性影
31(5): 385 – 393.
响 [J]. 中国公共卫生, 2020, 36(10): 1455 – 1458.
[ 19 ] Wedderburn RWM. Quasi-likelihood functions, generalized linear
[ 3 ] 孙成瑶, 唐大镜, 常会云, 等. 石家庄市正定县空气污染物对湿疹
models, and the Gauss-Newton method[J]. Biometrika, 1974,
日门诊量影响的时间序列分析 [J]. 中华疾病控制杂志, 2022,
61(3): 439 – 447.
26(3): 290 – 296, 324.
[ 20 ] Zhang H, Pounds SB, Tang L. Statistical methods for Over-
[ 4 ] Ji HM, Wang J, Meng B, et al. Research on adaption to air
dispersion in mRNA-Seq count data[J]. The Open Bioinformatics
pollution in Chinese cities: evidence from social media-based
Journal, 2013, 7(S1): 34 – 40.
health sensing[J]. Environmental Research, 2022, 210: 112762.
[ 21 ] Xiao S, Qi HC, Ward MP, et al. Meteorological conditions are
[ 5 ] Soleimani M, Akbari N, Saffari B, et al. Health effect assessment
heterogeneous factors for COVID-19 risk in China[J]. Environ-
of PM2.5 pollution due to vehicular traffic (case study: Isfahan)[J].
mental Research, 2021, 198: 111182.
Journal of Transport and Health, 2022, 24: 101329.
[ 6 ] Schober P, Vetter TR. Count data in medical research: Poisson 收稿日期:2021 - 12 - 20 (郭薇编校)