近年来,北京的空气污染日趋严重,PM2.5也引起了社会各界的广泛关注。目前针对北京市PM2.5浓度影响因素的研究中,在影响因素种类和模型选择方面有明显的局限性。文章基于上述两点,建立了以PM2.5浓度为响应变量、影响因素为预测变量的广义加性模型,结果发现PM2.5浓度的影响因素包括NO2浓度、风速、温度、月份、CO浓度、O3浓度和湿度。文章还建立了线性回归模型进行对比,结果发现加性模型的拟合效果明显优于线性模型。
北京的空气污染十分严重,PM2.5 作为主要的空气污染物之一,对人体健康有极大危害,因此研究如何控制PM2.5 污染是十分必要的。国内关于PM2.5 浓度影响因素的研究中,考虑的影响因素主要包括时间、空间、气象条件和前体物等。云慧(2013)等对深圳PM2.5 的时空分布特征进行了研究[1]。陈云进(2015)等研究了昆明市PM2.5 浓度与气象因素之间的关系[2]。贾艳红(2016)等研究了PM2.5 与PM10、CO、NO2、SO2 之间的微妙关系[3]。从模型选择方面来看,绝大多数研究者选择用传统的线性回归模型来分析PM2.5 浓度的影响因素。张人禾(2013)等通过建立多元线性回归模型来分析气象条件对PM2.5 浓度的影响,结果发现气象因子可以解释PM2.5 浓度68%的变化[4]。
综上所述,现有研究存在两个明显的局限性:一方面,对PM2.5 浓度影响因素的选择很是单一,缺乏全面系统的观察分析;另一方面,模型的选择囿于传统的线性回归模型,模型拟合效果不好。为克服现有研究的局限性,本文同时选择时间、气象条件和前体物这三类影响因素作为自变量,对PM2.5 浓度影响因素进行更加全面系统的分析,模型选择擅长处理非线性关系的广义加性模型,突破了传统线性模型对变量的线性假定。本文安排如下: 第一节是引言;第二节介绍了广义加性模型的理论知识;第三节至第五节是实证分析,分别建立了线性回归模型和广义加性模型来研究北京市PM2.5 浓度的影响因素, 并对两个模型进行了多角度的对比;第六节是总结,首先对研究工作的优缺点进行了总结,然后提出了一些治理雾霾的建议和措施。
2. 广义加性模型 近年来, 非参数模型受到越来越多学者的关注。
Stone (1985 年)提出了标准的加性模型(additive model), 模型中的每一个加性项都使用单独的光滑函数来估计,避免了“维度祸根”问题[5]。Hastie 和Tibshirani (1990 年)将加性模型的技术应用于广义线性模型(generalized linear model, GLM),于是就产生了广义加性模型(generalized additive model, GAM),广义加性模型是加性模型的推广,本质是利用连接函数把加性模型中响应变量的期望与加性部分联系起来[6]。
广义加性模型的公式如下: