摘要
由于环境恶化对人类健康、经济和日常生活的不利影响,空气质量问题逐渐引起了全世界的关注。大量研究表明,空气污染会对人类健康造成巨大危害,因此应采取措施预防和控制空气污染现象,减少空气污染对人类和地球造成的损害。随着人工智能的快速发展,深度学习技术可以在大数据时代发挥巨大作用。因此,本文使用深度学习来预测空气质量,主要工作是:处理和分析来自多个来源的信息。缺乏有效数据和数据集维度不合理可能会削弱数据集的代表性,导致预测结果出现一定误差。本文根据缺失数据的分布制定了不同的填充方案,并使用皮尔逊相关系数法分析了空气质量和气象数据,以研究不同特征因素对空气质量指标的贡献。最后,基于时间序列和空间相关性整合空气质量数据和气象数据,完成数据集的生成。
关键词:深度学习,空气质量预测,
Abstract
Due to the adverse effects of environmental degradation on human health, economy, and daily life, air quality issues have gradually attracted worldwide attention. Numerous studies have shown that air pollution can cause significant harm to human health, therefore measures should be taken to prevent and control the phenomenon of air pollution, and reduce the damage it causes to humans and the earth. With the rapid development of artificial intelligence, deep learning technology can play a huge role in the era of big data. Therefore, this article uses deep learning to predict air quality, with the main task of processing and analyzing information from multiple sources. Lack of effective data and unreasonable dataset dimensions may weaken the representativeness of the dataset, leading to certain errors in the prediction results. This article developed different filling schemes based on the distribution of missing data, and analyzed air quality and meteorological data using Pearson correlation coefficient method to study the contribution of different characteristic factors to air quality indicators. Finally, based on time series and spatial correlation, integrate air quality data and meteorological data to generate the dataset.
Keywords: deep learning, air quality prediction,
目录
摘要 I
Abstract II
1 绪论 1
1.1 选题目的和意义 1
1.2 空气质量预测研究现状 2
1.2.1 单一模型的研究现状 2
1.2.2.混合模型的研究现状 3
1.4 研究内容 3
第二章 相关理论知识 5
2.1 深度学习 5
2.1.1 深度学习概念 5
2.1.2 深度学习训练 6
2.2 基于深度学习的时间特征提取方法 7
2.2.1 循环神经网络(RNN) 7
2.2.2 长短期记忆网络(LSTM) 8
2.3 基于深度学习的空间特征提取方法 9
2.3.1 卷积神经网络(CNN) 9
2.3.2 图卷积神经网络(GCN) 9
3.1 研究区域分析 12
3.2 数据来源 12
3.3 数据预处理 12
3.3.1 数据缺失值处理 12
3.3.2 数据标准化 13
5 总结与展望 19
5.1 总结 19
5.2 展望 19
致 谢 20
参考文献 21
1 绪论
1.1 选题目的和意义
随着环境污染对人类健康、经济和生活质量的影响越来越大,空气质量已成为一个全球性问题。工业化、城市化和基础设施的快速发展是大多数城市地区空气污染加剧的主要原因。长期暴露在污染的环境中不仅对人类健康构成威胁,还可能导致呼吸道疾病、肺癌和心脏病等严重疾病。研究表明,空气污染也会对皮肤和大脑等重要器官造成长期损害。特别是,臭氧和颗粒物水平的增加会导致更严重的健康问题,并显著增加疾病率和死亡率。雾,尤其是燃煤产生的颗粒物,已成为世界各地常见的空气质量问题之一。
雾不仅影响人类健康,还对农业和旅游业等社会经济活动产生严重影响。因此,采取有效措施防止空气污染,减少其对人类和地球的危害已成为一项紧迫的任务。近年来,随着人工智能技术的快速发展,越来越多的研究人员将深度学习技术应用于空气质量预测领域。
如果能够准确预测空气质量,那么相关政府部门就可以实时充分了解空气质量的变化,做出科学的决策和预警。
因此,需要一个空气质量预测模型来根据现实规律提供预测。这不仅有助于提高城市空气污染防治的科学性,还可以为政府决策者提供实时数据支持,帮助他们采取实时应对措施,提高空气质量管理水平。
1.2 空气质量预测研究现状
1.2.1 单一模型的研究现状
近年来,人工智能因其学习非线性时间序列数据的能力而受到空气质量研究人员的广泛研究。作为人工智能领域的热门研究课题,机器学习具有同时解决各种回归和分类问题的能力,并在金融、医学、水资源、环境污染等许多研究领域取得了优异成果。此外,研究表明,人工神经网络(ANN)、支持向量机模型(SVM)、模糊推理模型和极值学习模型等机器学习模型在时间序列预测中的表现优于传统统计模型。同时,机器学习也被广泛应用于时间序列空气质量预测任务中,并取得了良好的预测效果。然而,机器学习模型在解决大规模时间序列数据预测任务方面存在一些局限性,无法有效捕捉空气质量数据集中的特征分布。因此,作为机器学习的一个分支,深度学习被用来预测空气质量。
随着深度学习技术的快速发展,越来越多的研究人员将深度学习结果应用于空气质量预测问题,以确保准确的空气质量分析并取得优异的结果。由于其学习时间序列数据的能力,重复神经网络在解决空气质量预测问题方面受到了广泛关注。科学家们在使用其他空气污染物和气象数据参数作为输入变量预测臭氧浓度方面取得了出色的成绩。Theang等人]表示,与RNN和FFNN模型相比,具有动态运动前训练的DeepRNN模型显著提高了预测PM2.5浓度的性能。Feng等人在首次24小时空气污染预测实验中比较了RNN模型和随机森林模型的预测指标,发现RNN模型具有更高的预测精度。然而,研究表明,随着输入时间序列长度的增加,RNN模型的复杂性也会增加,并导致梯度消失或梯度下降等问题,从而导致模型精度降低。鉴于缺乏RNN模型,改进的LSTM和GRU网络结构已被广泛应用于空气质量预测任务。LSTM模型可以有效地解决梯度消失或梯度下降的问题,并通过修改后的特殊“门”结构学习长期依赖关系。此外,人们发现LSTM模型能够同时记住许多短期和长期相关值。与LSTM相比,GRU优化了LSTM的结构,避免了梯度消失或爆炸的问题,同时需要更少的参数和更快的训练速度。Lin等人表示,基于GRU模型的空气质量预测具有更好的预测性能。与SVR、GBT、LSTM和ALSTM的比较实验验证了GRU模型比其他参考模型具有更好的预测性能,参数调整更少,训练时间更短。随着对空气质量预测研究的深入,一些科学家还使用卷积神经网络(CNN)来预测空气质量。Sayeed等人使用CNN进行CMAQ横向校正,以提高空气污染预测的预测效率和准确性。该技术将空气质量时间序列数据转换为网格数据特征,并将其划分为卷积层,以生成连续预测的特征图。通过对比分析,与CMAQ相比,CNN的预测准确率提高了13-43%。驴子和每个人都开发了一个由五个卷积层和一个完全连接的层组成的深层CNN架构,以实时预测每小时的臭氧浓度。将结果与LSTM、ANN和堆叠式自动编码器(SAE)进行了比较。CNN的表现更为出色。
1.2.2.混合模型的研究现状
考虑到单个模型在空气质量预测中的局限性,科学家们逐渐关注混合模型的发展,提出了各种混合模型来预测空气质量,并取得了良好的效果。Kow等人提出了一种混合CNN-BPNN模型,用于区域多阶段高级PM2.5浓度预测。CNN-BPNN在从许多输入变量中学习重要特征和准确预测空气污染方面具有更好的性能。Janarthanan等人提出了一种混合模型SVR和LSTM来预测大城市的空气质量指数(AQI)。实验发现,与RNN和LSTM等其他深度学习预测模型相比,SVR-LSTM模型具有更好的预测性能。基于卷积神经网络和重复神经网络的混合CNN-LSTM模型广泛应用于空气质量预测任务,其中CNN用于记录数据集中的空间分布,LSTM学习时间依赖性以进行长期预测。研究发现,与基于LSTM的空气质量模型相比,使用CNN层进行数据特征提取的性能有了显著提高,RMSE值增加了6-40%,超过了机器学习和统计模型。提出了一种由多个一维CNN层和双向LSTM组成的混合CNN-BILSTM模型,并在两个不同的数据集上验证了该混合模型。分析和比较表明,与其他单一模型相比,所提出的CNN-BILSTM混合模型将RMSE预测指标降低了12-24%,并显示出预测性能的显著提高。RaniSamal等人提出了一种更复杂的空气质量混合模型,该模型包括三个处理层:用于特征提取的CNN层、用于长期时间序列数据依赖性的LSTM层和用于信息校正以减少预测误差的SVR层。CNN-LSTM-SVR用于预测PM10,实验结果表明,与双向GRU、LSTM、BLSTM和GRU等基础模型相比,该模型的预测性能提高了91-96%。
科学家们发现,仅仅结合网络模型并不能完全提高预测空气质量的准确性。从不同的角度看待空气质量预报问题,可以得出结论,空气质量预报的准确性可能取决于几个因素,如充足的数据、数据维度和时空依赖性。因此,许多研究人员从时空依赖的角度提出了不同的混合模型。Pak等人提出了基于时空特征的CNN-LSTM模型来预测北京PM2.5浓度。利用互信息分析(MI)来分析时空相关性,他们成功地构建了时空特征向量,以包括目标变量和观测变量之间的线性和非线性相关性。使用CNN提取监测站之间的空间分布,提供重要功能,并使用LSTM考虑时间特征来创建不同的预测输出。Qi等人提出将图卷积网络和LSTM模型(GC-LSTM)相结合,分析76个空气质量监测站之间的空间特征,以预测PM2.5浓度。与其他模型相比,该模型显示出最佳的预测性能,与LSTM模型相比,预测性能提高了17%。Zhou等人提出了一种动态引导的空间图卷积网络(DD-STGCN)来预测PM2.5浓度,并添加了动态风场来注入监测站之间的空间关系。使用图卷积网络提取108个监测数据的空间分布,使用时间卷积块提取时间分布。预测结果表明,附加的动态方向信息可以描述站点之间的空间关系,提高空气质量预测的准确性。
上述模型在预测空气质量方面取得了很好的效果,但都有其局限性。单个预测模型可以有效地预测空气质量,但只能考虑时间和空间相关性中的一个,缺乏一些数据特征会削弱预测效果。混合模型利用了单一模型的优点,实现了更好的预测精度,产生的误差更少,在预测空气质量方面具有更高的可靠性。然而,混合模型会增加计算复杂度,过多的输入参数会导致模型中的权重敏感性问题,添加过多的无关数据会降低模型预测的准确性。因此,在设计最优混合模型时,应注意实际任务的重点,以便模型能够成功应对预测需求的变化。
1.4 研究内容
对从https://air.cnemc.cn/爬取的全国空气质量数据进行数据清理,保留长沙市各个空气质量监测站点的空气质量数据。根据原始数据集的缺失情况制定了不同的填补方案,并通过 Pearson 方法对长沙市的空气质量数据和气象数据进行相关性分析,探究不同特征因子与空气质量指标的关联,完成数据清理。实现了数据缺失值处理、数据分析、数据归一化、数据集成的完整数据预处理流程。同时划分好训练集与预测集,为之后的实验做好数据准备。
空气质量数据属于非线性的时间序列数据,但传统的预测模型难以获取在大量的空气质量数据里获取它们之间的规律,故而导致误差,本文将深度学习引用到空气质量预测中,与机器学习对比。具体为,选取机器学习算法随机森林RF、支持向量机SVR和深度学习算法BPNN、RNN、LSTM、GRU进行数据预测,进行模型评估。以RMSE(均方根误差),MAE(平均绝对误差)代表模型准确度。选取效果最好的模型,融入注意力机制。最后基于空气质量因子、时间序列因子、提出融入注意力机制的空气质量预测模型,进一步提升空气质量预测的准确性。
第二章 相关理论知识
在当今快速增长的人工智能领域,深度学习作为机器学习的一个分支,在各个领域都取得了优异的成绩。在空气质量预测领域,越来越多的研究人员专注于深度学习研究,提出了许多深度学习预测模型,这些模型在多个维度的空气质量预测任务中取得了重大突破。因此,本章将重点介绍深度学习的基本概念和理论模块,为本文的研究内容提供理论支持。
2.1 深度学习
2.1.1 深度学习概念
深度学习是机器学习的一个子集,也是人工智能的一个子集中。传统的机器学习技术仅限于处理从函数中提取的数据,而原始数据必须通过函数工程转换为适当的结构,以与机器学习算法兼容。作为一种机器学习方法,深度学习的最大优势在于它类似于人脑的学习过程,可以从非结构化或无标记的数据中学习。作为深度学习实现的基本框架,神经网络模型可以模拟人脑,将多源数据映射到神经网络的隐藏层进行功能学习,获得数据的内在含义,实现文本、图像、音频和其他数据的分析和学习。
图2. 1 人工智能与深度学习的关系
深度学习由多层人工神经网络(ANN)组成。ANN 包含三层基本架构,其结
构如图2.2所示。输入层(input layer)和输出层(output layer)的作用是实现对信息的引入和输出;中间部分为隐藏层(hidden layer),我们也称隐藏层中的节点为人工神经元。深度学习算法越深入,它包含的隐藏层就越多,它可以从给定的数据集中提取的功能就越多。在人工神经网络中,每一层都与另一层高度连接,神经网络中的数据传输是将一层的输出转换为下一层的输入的过程。通过提供I/O映射和通过足够的训练,获得的深度学习神经网络具有泛化能力,可以自动提取隐藏数据特征。
图2. 2 人工神经网络结构图
2.1.2 深度学习训练
实现一个深度学习算法的流程分为:训练阶段、验证阶段和测试阶段。训练和验证通常需要使用具有相同注释的数据集,而测试是在隐藏环境中使用数据注释进行的。模型的引入通常是以迭代形式进行的,这使得深度学习模型能够充分理解数据集中不同维度的特征。通过每次迭代,神经网络调整自己的参数和超参数,以确保输出结果的准确性。参数是算法的内部变量,其值由深度学习算法本身决定。超参数是在神经网络模型之外手动设置的值,可以手动调整以进一步提高精度。经过深度学习算法训练后,神经网络将显示预测结果。深度学习的训练流程如 图 2.3 所示。
图 2. 3 深度学习的训练流程
2.2 基于深度学习的时间特征提取方法
2.2.1 循环神经网络(RNN)
循环神经网络(RNN)作为深度学习的一个经典模型,由于其在处理这些时间序列数据问题方面的出色性能,使用自己的结构进行自处理输入数据已被广泛使用。在某一时刻,隐层RNN的值不仅取决于外部输入,还取决于隐层在前一时刻的相互反馈,并通过更重要的降雨的非线性函数学习输入和输出之间的关系。图 2.4 为循环神经网络 (RNN)的网络结构图及其在某个时刻 T 的展开结构图。
图 2. 4 循环神经网络结构
对于RNN结构,它需要一组X个输入序列,并通过独立反馈不断更新时间序列中的网络权重参数,以实现科学性,最终输出预测值y。如果循环结构是以平铺时间步长的方式开发的,我们可以直观地注意到,在任何迭代计算中,隐藏层都会始终隐藏隐藏层,其更新计算公式如下:
ht = σh (Wxhxt +Whhht 一1 + bh )
(2. 1)
其中,Wxh是从输入层到隐藏层的权重矩阵,Whh 为连续两个隐藏层(ht 一1 和 ht)之间的权重矩阵,bh 隐藏层的偏移向量, σh 为生成隐藏状态的激活函数。对于循环神经网络结构的输出y,可以由以下公式表示:
yt = σy
(2.2)
其中,Why 是从隐藏层到输出层的权重矩阵,by 为输出层的偏移向量,σy 为 输出层的激活函数。
虽然循环神经网络(RNN)在非线性的时序数据预测方面展现出了足够的优 势,然而,在许多实际任务中,网络输入序列通常很长,导致传统RNN执行反向传播(BP)时出现衰减或爆炸梯度问题,无法有效学习长期依赖数据。。
2.2.2 长短期记忆网络(LSTM)
为了解决长期依赖性问题,人们提出了长短期记忆(LSTM)网络,与重复神经元网络(RNN)相比,LSTM网络具有更复杂的结构,在基于序列的任务中取得了更好的结果。LSTM网络和RNN之间最大的区别是隐藏层,由于其独特的结构设计,它们通常被称为LSTM单元。LSTM的结构如图2.5所示。