You are on page 1of 4

中国公共卫生 

2022 年 9 月第 38 卷第 9 期        Chin J Public Health, Sept  2022   Vol.38  No.9 · 1199 ·


 

•  调查报告与分析 •

空气污染与疾病关系研究中广义相加模型 3 种
分布比较 *
顾峥嵘 1,2,王心雨 1,徐会 1,曾跃萍 1,宋菲 1,田剑 1,徐新 1,廉海荣 2,冯国双 1,3

【摘    要】目的  比较空气污染与疾病关系研究中广义相加模型中泊松分布、类泊松分布、负二项分布对研究结果
造 成 的 差 异 , 为 空 气 污 染 物 与 疾 病 的 相 关 研 究 提 供 方 法 参 考 。 方 法   收 集 福 棠 儿 童 医 学 研 究 中 心 病 案 首 页
(FUTURE)数据库中河南省郑州市儿童医院 2016 年 1 月 1 日 — 2019 年 12 月 31 日呼吸系统疾病住院病例的病案
首页数据及郑州市同一时期的空气污染和气象数据,采用广义相加模型的泊松分布、类泊松分布、负二项分布方法
分析臭氧(O3)与儿童呼吸系统疾病的关系。结果  对日住院病例数进行 Kolmogorov-Smirnov 拟合优度检验结果显
示,日住院病例数不服从泊松分布(D = 0.203,P < 0.001),但服从负二项分布(D = 0.055,P = 0.079);基于泊松分布、
类泊松分布和负二项分布的广义相加模型分析滞后 0~3 d 的平均效应结果显示,O3 对儿童呼吸系统住院病例数
的 RR(95 % CI)值分别为 1.003 9(1.001 5~1.006 4)、1.004 1(1.000 1~1.008 1)和 1.004 1(1.000 0~1.008 1)。结论  广义
相加模型中以病例数作为结局变量,当出现过度离散时首选负二项分布可减少假阳性错误且能更好地进行模型拟
合优度的比较。
【 关 键 词 】  空气污染;疾病;关系;广义相加模型;泊松分布;类泊松分布;负二项分布;比较
中图分类号:R 122.7;R 195.4    文献标识码:A    文章编号:1001-0580(2022)09-1199-04    DOI:10.11847/zgggws1137788

Association  of  ambient  ozone  pollution  with  respiratory  disease  among


children:  comparison  among  three  distribution  fittings  of  daily
hospitalization in generalized additive model analysis
GU  Zheng-rong*,  WANG  Xin-yu,  XU  Hui,  et  al  (*Beijing Children′ s Hospital, Capital Medical University, National
Center for Children′s Health, Beijing 100045, China)
【 Abstract】   Objective    To  compare  differences  among  the  results  of  utilizing  Poisson  distribution,  quasi-Poisson
distribution,  and  negative  binomial  distribution  in  the  generalized  additive  model  (GAM)  analysis  on  the  association  of
ambient  air  ozone  (O3)  with  respiratory  diseases  in  children  for  providing  references  to  researches  on  the  relationship
between  air  pollutants  and  diseases.  Methods    The  data  on  117  502  children  with  respiratory  diseases  hospitalized  in
Zhengzhou  Children′ s  Hospital,  Henan  province  during  2016  through  2019  were  extracted  from  the  FUTang  Updating
Medical Records (FUTURE) database; daily data of meteorological monitoring and atmospheric pollution in Zhengzhou city
during  the  same  period  were  also  collected.  Poisson  distribution,  quasi-Poisson  distribution,  and  negative  binomial
distribution of generalized additive model were used to analyze the relationship between daily ambient air O3 concentration
and number of child hospitalization due to respiratory diseases. Results   The results of Kolmogorov-Smirnov goodness of fit
test revealed that the distribution of daily hospitalization of children with respiratory diseases was consistent with negative
binomial  distribution  (D  =  0.055,  P  =  0.079),  but  not  with  Poisson  distribution  (D  =  0.203,  P  <  0.001).  The  results  of  the
GAM  analysis  with  Poisson  distribution,  quasi-Poisson  distribution,  and  negative  binomial  distribution  showed  that  a  10
μg/m3  increase  in  ambient  O3  was  significantly  related  to  an  increment  in  the  number  of  child  hospitalization  due  to
respiratory diseases averagely at lag day 0 – lag day 3, with the relative risks (RRs) (95% confidence interval, 95% CI) of 1.003 9
(1.001 5 – 1.006 4), 1.004 1 (1.000 1 – 1.008 1), and 1.004 1 (1.000 0 – 1.008 1), respectively. Conclusion   The study results
suggest  that  negative  binomial  distribution  should  be  adopted  first  when  conducting  a  GAM  analysis  involving  an
overdispersed dependent variable for reducing false positive error.
【 Key  words】   air  pollution;  disease;  relation;  generalized  additive  model;  Poisson  distribution;  quasi-Poisson
distribution; negative binomial distribution; comparison

近年,空气污染与疾病的关系已成为一个重要 料常选择泊松分布进行描述 [6],但泊松分布要求方


的研究热点。在此类研究中,由于不少空气污染物 差与期望相等,如果不考虑这一假定易造成假阳性
浓度与病例数之间不满足线性关系,因此绝大多数 错误。当数据的方差大于期望,即过度离散时,可采
研究均采用广义相加模型进行分析 [1 – 5]
。此时,结 用修正后的泊松分布(又称“类泊松分布”)进行分析[7]。
局变量通常为疾病的发病或患病例数,这种计数资
  从统计学角度看,过度离散还可通过负二项分布来
 
* 基金项目:北京市医院管理中心儿科学科协同发展中心专项(XTCX201809);北航 – 首医大数据精准医疗高精尖创新中心计划(BHME – 201901)
作者单位:1. 国家儿童医学中心 首都医科大学附属北京儿童医院大数据中心,北京 100045;2. 中国地质大学(北京)数理学院;3. 北京航空航天大学&
首都医科大学 北京大数据精准医疗高精尖创新中心
作者简介:顾峥嵘(1998 – ),女,山东德州人,硕士在读,研究方向:生物医学统计。
通信作者:廉海荣,E-mail:lianhr@126.com;冯国双,E-mail:glxfgsh@163.com;
· 1200 · 中国公共卫生 2022 年 9 月第 38 卷第 9 期        Chin J Public Health, Sept  2022   Vol.38  No.9

处 理 [8], 但 目 前 关 于 空 气 污 染 与 疾 病 关 系 的 研 究 例数增加的数量 [17]。本研究采用泊松分布、类泊松


中很少采用负二项分布 [9 – 11],也未见对类泊松分布 分布和负二项分布 3 种分布形式进行模型的拟合。
与负二项分布选择的相关研究。为比较空气污染 泊 松 分 布 是 独 立 计 数 资 料 的 常 用 分 布 , 记 作 Y~
与疾病关系研究中广义相加模型中泊松分布、类泊 Poi(μ),其中,Y 的期望和方差均等于参数 μ[18]。类
松分布、负二项分布对研究结果造成的差异,为空 泊松分布是由泊松分布演变而来的一种修正方法,
气污染物与疾病的相关研究提供方法参考,本研 并没有确定的概率分布形式,只是给方差增加了一
究 收 集 福 棠 儿 童 医 学 研 究 中 心 病 案 首 页 ( FUTang 个 参 数 θ( 称 为 过 度 离 散 参 数 ) , 通 过 改 变 过 度
Updating Medical Records, FUTURE) 数 据 库 [12] 中 河 离散参数的大小,它可以平衡期望与方差的大小关
南 省 郑 州 市 儿 童 医 院 2016 年 1 月 1 日   —  2019 年 系。类泊松分布的期望和方差可以表示为: E(Y) =
12 月 31 日呼吸系统疾病住院病例的病案首页数据 µ; Var(Y) = θµ 。其中,μ > 0, θ > 0[7]。负二项分布是
及郑州市同一时期的空气污染和气象数据,采用广 伯努利概型的一种重要分布,常被定义为泊松 – 伽
义相加模型的泊松分布、类泊松分布、负二项分布 马混合分布。若响应变量 Y 服从负二项分布,记作
方 法 分 析 臭 氧 ( ozone, O3) 与 儿 童 呼 吸 系 统 疾 病 的 Y~NB(μ, λ),则 Y 的期望和方差可以表示为:E(Y) = µ;
关系。结果报告如下。
  Var(Y) = µ + λµ2 ;。其中,μ > 0,λ > 0。当 λ 趋于零时,
负二项分布逼近于泊松分布 [8]。
 

1   资料与方法
 

2   结 果
1.1    资料来源  收集 FUTURE 数据库 [12] 中郑州市  

儿童医院 2016 年 1 月 1 日 — 2019 年 12 月 31 日呼 2.1    基本情况(图 1)  郑州市儿童医院 2016 年


吸系统疾病住院病例的病案首页数据,根据国际疾 1 月 1 日 — 2019 年 12 月 31 日的日均儿童呼吸系
病分类第 10 修订本(the International Classification of 统住院病例数为(80 ± 345)例,各年份日均病例数
Diseases, Revision 10, ICD-10) [13], 本 研 究 共 纳 入 主 如图 1 所示。
 

要诊断编码为 J00~J99 的呼吸系统疾病病例 117 502 120

例。同期空气污染数据来源于郑州市空气质量监
100
测站,收集其中细颗粒物(particulate matter less than
2.5 μm in aerodynamic diameter,PM2.5)、可吸入颗粒
病例数(例)

80
物 ( particulate  matter  less  than  10  μm  in  aerodynamic
diameter, PM10) 、 二 氧 化 氮 ( nitrogen dioxide, NO2) 、 60
二 氧 化 硫 ( sulfur dioxide   , SO2) 、 O3 和 一 氧 化 碳
(carbon monoxide,CO)6 项指标的日均浓度。同期 40
郑州市气象数据资料来源于中国气象科学数据共
享服务网(http://datama. cn/),收集指标为日平均气
2016 2017 2018 2019 2020
温和日平均相对湿度。
 

年份
1.2    统计分析 采用R 4.0.5 统计软件进行Kolmogorov-  
Smirnov 拟合优度检验,并构建广义相加模型计算 图 1   郑州市儿童医院 2016 — 2019 年儿童呼吸
模型的均方根误差。广义相加模型是广义线性模 系统住院病例数

型的半参数扩展,利用连接函数既可以拟合响应变 2.2    泊松分布及负二项分布的拟合(图 2)  对
量与解释变量的线性关系,也可以拟合它们之间的 日住院病例数进行的 Kolmogorov-Smirnov 拟合优度
的非参数关系,且允许解释变量的光滑函数以相加 检验结果显示,日住院病例数不服从泊松分布(D =
的形式引入模型 [14 – 15]。广义相加模型的基本形式 0.203,P < 0.001),但服从负二项分布(D = 0.055,P =

n ∑
m ( ) 0.079),2 种分布的拟合情况见图 2。
 

为: g [E (Y)] = β0 + βjxj + f j x j 。其中,g(·)是


 

0.20
j=1 j=1
严格单调且 g 可导的函数,被称为连接函数,它的 0.15
选取与响应变量 Y 的概率分布有关,本研究的响应
概率

0.10
变量为每日住院病例数,分别选择泊松分布、类泊
松分布和负二项分布;βi 表示参数关系的变量,本 0.05

研究主要包括 O3 浓度、是否节假日和周几;fj(·)表 0
示非参数关系的变量,本研究主要包括温度、湿度 0 50 100 150
儿童呼吸系统疾病日住院病例数(例)
和 日 期 效 应 [16]。 本 研 究 采 用 相 对 危 险 度 ( relative  
risk, RR)来量化 O3 浓度对儿童呼吸系统疾病的影 注:虚线表示泊松分布,实线表示负二项分布。
响,RR 值反映了 O3 浓度每升高 10 μg/m3 造成日病 图 2   泊松分布与负二项分布的拟合情况
中国公共卫生 2022 年 9 月第 38 卷第 9 期        Chin J Public Health, Sept   2022   Vol.38  No.9 · 1201 ·

2.3    泊松分布、类泊松分布和负二项分布 3 种分 则 开 始 变 大 , 因 此 选 择 以 滞 后 3 d 作 为 滞 后 效 应 。
布下广义相加模型的滞后效应分析(表 1)  在 基于泊松分布、类泊松分布和负二项分布的广义相
校正了星期几、节假日、日期效应、温度和湿度等 加模型分析滞后 0~3 d 的平均效应结果显示,O3 对
变量后,分别拟合了滞后期为 0~3 d 的 O3 浓度与 儿童呼吸系统住院病例数的 RR(95 % CI)值分别为
日住院病例数的关系。结果显示,滞后 3 d 的 P 值较 1.003 9(1.001 5~1.006 4)、1.004 1(1.000 1~1.008 1)
滞后 1 d 和滞后 2 d 更接近 0.05,而滞后 4 d 的 P 值 和 1.004 1(1.000 0~1.008 1)。
 

表 1   广义相加模型 3 种分布的统计分析结果

病例数分布 滞后天数(d) S x¹ RR 值 95 % CI P 值


泊松分布 0 8.886 1×10 – 5 1.002 7 1.001 0~1.004 5 0.002 3
1 8.904 3×10 – 5 1.002 1 1.000 3~1.003 8 0.020 0

2 8.898 3×10 – 5 1.000 7 0.998 9~1.002 4 0.456 0

3 8.896 4×10 – 5 1.002 6 1.000 8~1.004 3 0.004 1

4 8.898 2×10 – 5 1.002 0 1.000 2~1.003 7 0.026 8


平均0~3 1.248 1×10 – 4 1.003 9 1.001 5~1.006 4 0.001 6
类泊松分布 0 1.472 4×10 – 4 1.002 8 0.999 9~1.005 7 0.055 3

1 1.475 3×10 – 4 1.002 2 0.999 3~1.005 1 0.135 7

2 1.474 4×10 – 4 1.000 8 0.997 9~1.003 7 0.574 6

3 1.471 4×10 – 4 1.002 6 0.999 7~1.005 5 0.074 3

4 1.471 2×10 – 4 1.002 1 0.999 2~1.004 9 0.163 4


平均0~3 2.046 1×10 – 4 1.004 1 1.000 1~1.008 1 0.045 5
负二项分布 0 1.494 2×10 – 4 1.002 9 1.000 0~1.005 8 0.052 9

1 1.498 1×10 – 4 1.002 2 0.999 3~1.005 2 0.135 4

2 1.498 4×10 – 4 1.000 7 0.997 8~1.003 7 0.621 3

3 1.495 3×10 – 4 1.002 6 0.999 6~1.005 5 0.085 8

4 1.495 1×10 – 4 1.001 9 0.998 9~1.004 8 0.210 9


平均0~3 2.076 0×10 – 4 1.004 1 1.000 0~1.008 1 0.051 3

3   讨 论 果,而不能采用泊松分布的结果。
本 研 究 对 滞 后 0~ 3 d 平 均 效 应 的 分 析 结 果 显
在空气污染与疾病例数的研究中,泊松分布常
示,基于泊松分布、类泊松分布和负二项分布广义
被用来描述响应变量 Y,但当 Y 的方差大于期望时
相 加 模 型 的 参 数 估 计 值 差 别 较 小 , 分 别 为 1.003 9、
会出现过度离散的问题,因此需要对泊松分布进行
1.004 1 和 1.004 1,提示分布选择对参数估计值的影
修正或寻找替代分布。Wedderburn [19] 在 1974 年提
响不大;但对标准误的影响较大,泊松分布、类泊松
出了 Quasi 似然函数,并在此基础上,为解决泊松分
分布和负二项分布对应的S x̄ 值分别为 1.248 1 × 10 – 4 、
布的过度离散问题提出了类泊松分布。Ye 等 [8] 在
2.046 1 × 10 – 4 和 2.076 0 × 10 – 4 。因此,广义相加模
2013 年则提出,由于负二项分布的方差总是大于同
型中,当响应变量出现过度离散时若继续使用泊松
均值泊松分布的方差,它也可以作为纠正过度离散
的一种方法。尽管类泊松分布和负二项分布均可 分布,尽管对参数估计值影响不大,但 S x̄ 值会被低
用于处理过度离散问题,但其原理不同。当泊松分 估,相应的置信区间会变窄,从而引起假阳性增大,
布的方差等于期望这一假定不满足时,类泊松分布 导致最终结论的偏倚 [20]。当使用类泊松分布和负
与负二项分布的处理方式不同,类泊松分布变量的 二项分布时,由于它们更好地修正了方差,使 S x̄ 值
方差是期望的一次函数,而负二项分布变量的方差 增大,置信区间更合理,因此假设检验的结果也更
则是期望的二次函数。从本研究结果看,不难发现 为可靠;且从 S x̄ 值来看,负二项分布修正的力度要
儿童呼吸系统日住院病例数存在过度离散问题:首 大于类泊松分布,当 P 值在 0.05 附近时尤其要注意。
先,日住院病例数的方差(345)显著大于期望(80); 此外,由于类泊松分布仅由均值和方差来表征,并不
其 次 , Kolmogorov-Smirnov 拟 合 优 度 检 验 提 示 该 数 一定具有分布形式,所以在比较类泊松分布的拟合
据分布偏离泊松分布较大,但与负二项分布更为接 优度时一般不选择赤池信息准则(Akaike information
近;最后,过度离散参数 > 1 且差异有统计学意义。 criterion,AIC)和贝叶斯信息准则(Bayesian information
因此,本研究应选择类泊松分布或负二项分布的结 criterion,BIC)等信息理论方法。尽管对 AIC 改进后的
· 1202 · 中国公共卫生 2022 年 9 月第 38 卷第 9 期        Chin J Public Health, Sept  2022   Vol.38  No.9

类 赤 池 信 息 准 则 ( Quasi-Akaike information criterion, regression  and  negative  binomial  regression[J].  Anesthesia  and


[21] Analgesia, 2021, 132(5): 1378 – 1379.
QAIC)适用于类分布族 ,但其只能在类分布模型
[ 7 ] Sokadjo  YM,  Atchadé  MN.  The  influence  of  passenger  air  traffic
内进行比较,而无法用于类分布模型和其他具有分
on  the  spread  of  COVID-19  in  the  world[J].  Transportation
布形式模型的比较。因此,对泊松分布、类泊松分 Research Interdisciplinary Perspectives, 2020, 8: 100213.
布和负二项分布 3 种分布的比较可考虑其他拟合优 [ 8 ] Ye F, Yue C, Yang Y. Modeling time-dependent overdispersion in
度或预测标准。 longitudinal  count  data[J].  Computational  Statistics  and  Data
本研究从理论和实际角度比较了泊松分布、类 Analysis, 2013, 58: 257 – 264.

泊松分布和负二项分布 3 种分布在空气污染与疾病 [ 9 ] 薛平, 张淑敏, 于仁志, 等. 牡丹江市大气污染对居民呼吸疾病就


诊人数影响 [J]. 中国公共卫生, 2018, 34(1): 123 – 126.
关系研究中广义相加模型中的应用,主要结论为:
[ 10 ] 林少凯, 林在生, 王恺. 福州市大气臭氧暴露对人群循环系统疾
(1)如果计数资料发现方差大于期望,建议不要采
病死亡风险评估 [J]. 中国公共卫生, 2020, 36(6): 929 – 932.
用泊松分布,否则容易导致假阳性;(2)过度离散的 [ 11 ] 王在翔, 赵晶, 牛泽亮, 等. 空气污染对心脑血管疾病门诊量影响
处理方法主要是类泊松分布和负二项分布,但类泊 的 Poisson 广义可加模型分析 [J]. 中国卫生统计, 2017, 34(2):
松分布并无明确的分布形式,其模型的拟合优度无 232 – 235.
法采用常规的 AIC、BIC 等指标,而负二项分布有明 [ 12 ] Wang  XY,  Zeng  YP,  Tian  J,  et  al.  A  brief  introduction  to  the

确的分布形式,可以计算离散参数,且泊松分布可 FUTang  Updating  medical  REcords  (FUTURE)  database[J].


Pediatric Investigation, 2021, 5(3): 247 – 248.
看作是负二项分布的特例;(3)广义相加模型中,当
[ 13 ] 董景五. 疾病和有关健康问题的国际统计分类 [M]. 2 版. 北京:
数据出现过度离散时,建议首选负二项分布,因为
人民卫生出版社, 2008.
类泊松分布和负二项分布的结果基本一致,但负二 [ 14 ] 张云权, 朱耀辉, 李存禄, 等. 广义相加模型在 R 软件中的实现 [J].
项分布对过度离散的校正力度更大些,且更易与泊 中国卫生统计, 2015, 32(6): 1073 – 1075.
松分布比较。 [ 15 ] 樊琳, 顾清, 曾强. 广义相加模型在大气污染流行病学研究中的
利益冲突 所有作者声明不存在利益冲突 应用进展 [J]. 环境与职业医学, 2019, 36(7): 676 – 681.

出版授权 作者同意以纸质版和网络版的形式同时出版 [ 16 ] Ravindra  K,  Rattan  P,  Mor  S,  et  al.  Generalized  additive  models:
building  evidence  of  air  pollution,  climate  change  and  human
参考文献 health[J]. Environment International, 2019, 132: 104987.
[ 17 ] 张丽, 相晓妹, 张水平, 等. 西安市空气污染对先天性心脏病影
[ 1 ] 魏俊妮, 薛淑莲, 路殿英, 等. 高血压日入院人数与空气污染物浓
响 [J]. 中国公共卫生, 2019, 35(10): 1416 – 1420.
度相关性研究 [J]. 中国预防医学杂志, 2018, 19(2): 101 – 105.
[ 18 ] 胡良平. 计数资料回归分析基础知识 [J]. 四川精神卫生, 2018,
[ 2 ] 范传刚, 明小燕, 王婧, 等. 宜昌市大气颗粒物对急救人次急性影
31(5): 385 – 393.
响 [J]. 中国公共卫生, 2020, 36(10): 1455 – 1458.
[ 19 ] Wedderburn  RWM.  Quasi-likelihood  functions,  generalized  linear
[ 3 ] 孙成瑶, 唐大镜, 常会云, 等. 石家庄市正定县空气污染物对湿疹
models,  and  the  Gauss-Newton  method[J].  Biometrika,  1974,
日门诊量影响的时间序列分析 [J]. 中华疾病控制杂志, 2022,
61(3): 439 – 447.
26(3): 290 – 296, 324.
[ 20 ] Zhang  H,  Pounds  SB,  Tang  L.  Statistical  methods  for  Over-
[ 4 ] Ji  HM,  Wang  J,  Meng  B,  et  al.  Research  on  adaption  to  air
dispersion  in  mRNA-Seq  count  data[J].  The  Open  Bioinformatics
pollution  in  Chinese  cities:  evidence  from  social  media-based
Journal, 2013, 7(S1): 34 – 40.
health sensing[J]. Environmental Research, 2022, 210: 112762.
[ 21 ] Xiao  S,  Qi  HC,  Ward  MP,  et  al.  Meteorological  conditions  are
[ 5 ] Soleimani  M,  Akbari  N,  Saffari  B,  et  al.  Health  effect  assessment
heterogeneous  factors  for  COVID-19  risk  in  China[J].  Environ-
of PM2.5 pollution due to vehicular traffic (case study: Isfahan)[J].
mental Research, 2021, 198: 111182.
Journal of Transport and Health, 2022, 24: 101329.  
[ 6 ] Schober  P,  Vetter  TR.  Count  data  in  medical  research:  Poisson 收稿日期:2021 - 12 - 20         (郭薇编校)

You might also like