摘 要
现代经济发展迅速,城市面貌日新月异。但随之经济和生活对电力负荷的稳定性要求越来越高。电力系统之中有一项重要工作就是对电力的短期负荷进行分析和预测。随着智能电表的普及,对用户级负荷数据的掌握为电网的短期负荷预测提供了便利。为了安全管理和优化电力系统的调度,通过考虑多种因素的影响和采用各种预测技术方法,尽量去对电力系统进行精准的预测,这对于经济生活的平稳运行和提高能源利用效率是非常有帮助的。本文针对考虑多因素的电网短期负荷预测问题展开研究。在电力负荷预测领域,多因素耦合作用对预测精度有显著影响。研究首先对2009-2015年负荷数据及2012-2015年气象数据进行了特征分析与预处理,包括数据清洗、标准化、负荷时间分布特征分析以及气象因素相关性回归分析。基于预处理后的数据,构建了ARIMA、LSTM、XGBoost等单一时间序列预测模型,并通过参数优化和算法实现提高了预测精度。进一步,设计了智能相似日识别算法,融合气象-时间特征,构建了多因素耦合预测模型。实验结果表明,多因素耦合预测模型相比单一因素预测模型具有更高的预测精度,且偏差校正策略有效。本文的研究成果为电网短期负荷预测提供了新思路和方法,对电力系统的安全稳定运行具有重要意义。
关键词:电力系统;电力负荷;多因素耦合预测模型;
Abstract
The modern economy is developing rapidly, and the urban landscape is constantly changing. But with the increasing demand for stability of power load in the economy and daily life. An important task in the power system is to analyze and predict the short-term load of electricity. With the popularization of smart meters, the mastery of user level load data has provided convenience for short-term load forecasting of the power grid. In order to ensure safety management and optimize the scheduling of the power system, various factors are considered and various prediction techniques are adopted to make accurate predictions of the power system as much as possible. This is very helpful for the smooth operation of economic life and the improvement of energy utilization efficiency. This article focuses on the study of short-term load forecasting in the power grid considering multiple factors. In the field of power load forecasting, the coupling effect of multiple factors has a significant impact on the accuracy of forecasting. The study first conducted feature analysis and preprocessing on the load data from 2009 to 2015 and meteorological data from 2012 to 2015, including data cleaning, standardization, analysis of load time distribution characteristics, and regression analysis of meteorological factor correlation. Based on preprocessed data, single time series prediction models such as ARIMA, LSTM, XGBoost were constructed, and the prediction accuracy was improved through parameter optimization and algorithm implementation. Furthermore, an intelligent similar day recognition algorithm was designed, integrating meteorological time features to construct a multi factor coupled prediction model. The experimental results show that the multi factor coupled prediction model has higher prediction accuracy compared to the single factor prediction model, and the bias correction strategy is effective. The research results of this article provide new ideas and methods for short-term load forecasting of the power grid, which is of great significance for the safe and stable operation of the power system.
Keywords: power system; Power load; Multi factor coupled prediction model;
目录
摘 要 8
Abstract 9
第一章 绪论 11
1.1 研究背景与意义 11
1.2 国内外研究现状 12
1.2.1 国内研究现状 12
1.2.2国外研究现状 13
1.3 本文研究内容与技术路线 14
1.4 论文组织结构 14
第二章 数据特征分析与预处理 16
2.1 基本理论 16
2.1.1 机器学习 16
2.1.2数据挖掘 17
2.1.3特征选择 17
2.1.4相关性 17
2.2 数据集描述(2009-2015负荷数据+2012-2015气象数据) 18
2.3数据的预处理 18
2.3.1 各季数据的筛查 19
2.3.2 气象数据预处理 20
2.4 相关性分析 22
第三章 基于数据挖掘的气象信息粒化 23
3.1 引言 23
3.2数据挖掘方法介绍 23
3.3完全气象因子序列 23
3.4 空间多元回归分析 24
3.5 气象灵敏度分析 24
3.6空间滞后修正模型 25
第四章 仿真分析 28
4.1 MATLAB简介 28
4.2 传统BP网络预测模型和改进BP网络预测模型 28
4.3 仿真分析 29
第五章 结论与展望 34
5.1 总结 34
5.2 展望 34
参考文献 35
致 谢 37
第一章 绪论
1.1 研究背景与意义
电力系统是由发电厂、输电线路和配电系统及负荷所组成的整体。电力系统的经济、安全和稳定运行是电力系统的基本要求。在保证安全的前提下充分利用资源和设备,用最少的能源消耗和运行成本保证用户满意并且可靠的用电。电力系统短期负荷预测是在考虑电力系统的运行方式、气象因素条件、增容计划、节假日规律以及经融影响等众多因素的基础上,对未来某特定时间某地区全社会的用电需求量进行预测,以尽量满足高精度的要求。智能电网是2009年国网公司认为未来电力系统的未来发展趋势,随着智能电网在我国的提出,我国对智能电网的研究很快已经白热化,一大批的成熟技术已经进行了全面的推广。刚开始提出智能电网是由于在近年来世界上频繁发生的大型连锁停电事故,充分暴露了基于资源大范围全局优化理念而发展起来的大型互联同步电网的脆弱性,以2003年美国大停电为例。这就给当地造成了约合60亿美元的经济损失。智能电网的实施对短期负荷预测也提出了更新的基准:信息化、数字化、自动化和互动化。而现在的滚动发电计划,要求预测部门能够根据地区负荷的实际情况实时修改预测结果,这使目前的负荷预测方法难以在速度和精度上同时满足要求。以我国一个年用电量290亿度电的城市为例,如果预测精度每提高1%,每年可增收1.45亿元。因此对负荷预测的精度与速度的研究具有重要的意义。
随着科学技术的不断提高,尤其是电力市场化的迅速应用,电力系统负荷预测课题的内涵不断的扩大,电力生产部门对负荷预测的要求也不断的提高,尤其是短期负荷预测,是电力部门对电价制定的依据,这就对短期负荷预测提出了更新的要求。现在预测方法不断出现,预测精度不断提高,预测效率也不断的提高,但由于短期负荷预测的复杂性与非线性,每种方法都存在一定的问题,所以不管是对于预测方法还是预测算法的创新都显得尤为重要了。
大多数的预测方法都只注重方法创新,而不考虑影响因素特性对负荷的影响。影响负荷预测的因素主要是气象因素,比如风速,降雨量,光照等,它们都是很有不确定性的因素,一般不被做预测的训练样本。而云模型能够适对不确定性进行处理,使得以前被忽略的不确定因素,也被负荷预测所考虑,以提高预测精度。由于数据预处理任务的艰巨以及由于频繁使用智能算法带来的迭代次数增加,工作量巨大的问题,预测的时间是一个严重的问题。云计算技术可以解决上述问题,云计算的特点是按需使用和强大的并行计算能力,按需使用保证了存储和计算资源的合理使用,这保证了用户不需要花费高昂的硬件成本就能提高系统运行效率。如果采用云计算技术进行数据预处和智能预测,就可以大大提高预测效率从而允许增加样本维数和预测模型复杂程度以提高预测精度。。
1.2 国内外研究现状
1.2.1 国内研究现状
目前,国内的负荷预测方法大多采用支持向量机、神经网络等。自21世纪初,基于支持向量机的短期负荷预测成为各国学者的研究重点,而且提出了采用许多改进的方法以及与其他优化算法相结合来提高其精度和速度。采用灰色关联投影法选择相似日,然后用自适应变异粒子群算法优化最小二障支持向量机的参数,从而避免了对模型参数的盲目选取。提出了一种基于经验模态分解(empiricallmodedecomposition,emd)和相关向量机(relevancevectormachine,rvm)的短期负荷预测方法。该方法采用emd方法将负荷值分解为许多不同频率的固有模态分量(imf),然后分别建立相关向量机模型对各自的分量进行预测,最后将各模型的预测值通过rvm加权计算得到最终的预测值。该预测模型的预测误差小于反向传播神经网络(broaderedpropagation,bp)神经网络与支持向量机(s pportvector machine,svm)模型。
我国学者早期就运用组合预测方法进行预测,一种预测方法存在的一些缺点靠其他方法来改进.所以引出了组合预测方法,选取一些不同优点能互补缺点,且各自独立的预测方法进行预测,再将预测结果以相应的权重相加得到组合预测结果,或者在几种预测方法中选取预测精度最高的方法.
我国学者对神经网络也有很好的研究。牛东晓利用模糊神经网络(f zyn peral network,fnn)的聚类方法将负荷数据按照时间序列相似性进行分类,再把要预测的负荷数据根据本身的特征映射到不同的时间序列中,分析不同预测方法在不同时间序列下的预测能力,进而将映射到不同时间序列的预测值进行权重分析。文献提出了一种预测精度高于单用神经网络的方法基于遗传算法优化人工神经网络负荷预测模型。文献利用动态调整人工蚁群算法(daacs),对bp神经网络参数进行优化,建立了动态调整人工蚁群bp神经网络组合算法预测模型。该方法解决了bp神经网络和人工蚁群算法易陷于局部极值和搜索质量差等缺点,使得bp神经网络收敛过程又快又稳,
提高了泛化能力和预测精度 我国的一些学者对小波分析和混沌理论也有一定研究,小波分析能用逐渐密集的采样步长对不同频率的成分进行采样,因而可以聚焦到信号的任何细节,非常适于分析微弱或者突变的奇异信号。用时间序列建立出了一个没有改变吸引子拓扑结构的相空间:通过检验混沌特性为混沌理论在负荷预测的应用提供了理论基础建立了混沌理论的局域线性预测模型。云技术的发展我国的学者也将其引用到负荷预测上来。华北电力大学的王保义教授在文献[16]中利用多agent思想和云计算的分布式思想利用mapred ce编程模式建立云计算模型以提高算法处理海高维数据的能力。在32个节点云计算集群上进行实验,结果表明基于云计算的负荷预测精度和速度均优于传统svm算法和ann算法。华北电力大学的李元成等人在文献[17]中利用svm与微软的windows az re云计算平台结合进行短期负荷预测。经过仿真对比发现该方法能够有效提高预测效率精度。。
1.2.2国外研究现状
国外的研究人员较早开始对负荷预测问题进行了研究,最早提出了采用人工神经网络、支持向量机等方法。1999年美国华盛顿大学的d.cpark等人首先提出了将神经网络引用到负荷预测中,同时加入了传统方法不考虑的气象因素,提出了神经网络算法i8和一种归纳推理著名贝叶斯定理自从被英国数学家r.t.bayes提出后发展很快。其他人的工作在此基础上研究形成了一整套基于统计推断的原理和方法。系统人、控制论的2013国际会议上,提出了一种新的贝叶斯与神经网络神经网络相结合的预测方法191。上世纪90年代贝尔实验室在统计学习理论的基础上开发出了一种全新的智能预测方法–支持向量机(support vectormachine,svm)方法,与神经网络方法不同,svm实现了结构风险最小化原理,对样本拥有比较高的泛化能力201。在由台湾大学的林智仁教授提供的libsvm方法在欧洲智能技术网络组织的电力预测大赛中获得优胜以后,各国的研究人员纷纷提出了一些改进的svm预测方法。文献将svm模型与ann模型通过加权构建组合模型,获得较短的训练时间。。
1.3 本文研究内容与技术路线
电力负荷数据,数据从2009年1月1日至2015年1月10日,每15min一个采样点,每日96点;及2012年1月1日至2015年1月17日的气象因素数据。
1.4 论文组织结构
第一章 绪论:引言部分首先介绍了电网短期负荷预测的研究背景,包括电力系统负荷的波动、新能源不确定性问题,指出负荷预测对于电力系统安全、经济运行的重要性,指出负荷预测受多因素影响,从多角度考虑负荷预测的必要性,引出本文研究意义。其次对国内外关于电网短期负荷预测的研究进展进行了综述,介绍了国内关于电网短期负荷预测方法研究,包括时间序列法、神经网络法、支持向量机法以及考虑多因素(气象、经济)对负荷的影响等方面的研究现状。指出了国内不足之处,如对某些因素考虑较少、模型泛化能力不足等。接着对国外电网短期负荷预测先进技术和动态进行了研究,介绍了国外采用深度学习、大数据等新技术开展负荷预测,考虑多因素融合、模型可解释性等方面研究,最后与国内研究的不足之处进行了比对,为后文研究做了引子。明确了本文的主要研究内容,包括对数据特征分析与预处理,基于数据挖掘的气象信息粒化、负荷预测模型构建与优化等方面。随后详细阐述了本论文的技术路线,包括数据获取、特征提取、模型训练、评估结果四大部分,概述了论文结构,使读者对论文的结构有一个简单的认识。。
第二章 数据特征分析与预处理:简介机器学习的定义、分类、常用算法,机器学习在负荷预测中的应用原理与优缺点,引出机器学习可以从历史数据中提取负荷的规律,为预测负荷提供依据;简介数据挖掘的定义、流程、常用方法,负荷预测中挖掘数据背后隐藏的价值,能发现负荷受到哪些因素的影响,进而找出影响负荷的关键点;简介特征选择的定义、目的,常用的特征选择方法,负荷预测中如何选择特征变量,如何利用特征选择方法来提高负荷预测的性能;简介相关性的定义、计算方法,相关性分析能反映负荷与其他因素之间的相关性,以此来确定负荷的主要因素;介绍本研究中所用数据集,包括2009−20152009 - 20152009−2015的负荷数据和2012−20152012 - 20152012−2015的气象数据,数据来源,数据集格式,数据规模等;数据预处理对不同季节的负荷数据进行了筛查,处理缺失值和异常值,对四季的负荷数据进行了简单的分析;对气象数据进行了清洗,格式转换,单位统一等处理,处理气象数据中的缺失值和异常值;使用相关性分析,计算负荷数据与每个因素之间的相关性系数,找出影响负荷的主要因素。。
第三章 基于数据挖掘的气象信息粒化:阐述气象信息粒化的目的和意义,说明其在提高负荷预测精度方面的作用介绍本研究采用的数据挖掘方法,重点讲解模糊聚类的原理和应用。构建完全气象因子序列,为后续分析提供基础。进行空间多元回归分析,探究气象因素与负荷之间的空间关系。开展气象灵敏度分析,确定不同气象因素对负荷的影响程度。应用空间滞后修正模型,进一步提高模型的预测精度。通过仿真实验验证模型的有效性和准确性。
第四章:仿真与分析:
第五章 结论与展望:总结本研究的主要成果,强调考虑多因素进行负荷预测的优势和本研究在提高预测精度方面的贡献。展望未来的研究方向,如进一步优化模型、考虑更多影响因素、提高模型的实时性等。列出本研究引用的所有参考文献,按照规范的格式进行编排。
第二章数据特征分析与预处理
2.1 基本理论
预测电力负荷的模型主要可以被划分为统计模型、基于知识的专家系统、混合模型以及基于人工智能技术的模型。在过去的几十年中,随着计算机技术、大数据技术以及神经网络方法的发展,各种新理论、新思路不断地出现,使得传统的负荷预测技术也得到了一定程度的革新。在这其中,统计模型与人工智能模型逐步崭露头角,成为负荷预测领域的主导力量。在这几种建模方法中,统计模型是目前应用最广泛、效果最好的一种。本研究主要采用了统计机器学习、数据挖掘、特征筛选以及相关性等核心理论进行深入探讨。
2.1.1 机器学习
(1)线性回归
线性回归 是利用线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。函数是一个或多个回归系数的模型参数的线性组合。只有一个自变量时称做简单回归,大于一个自变量时通常叫做多元回归。给一个随机样本 y_i,x_i1,…,x_ip(i=1,…,n),一个线性回归模型假设回归因子 y_i 和回归量 x_i1,…,x_ip之间的关系是除了 x 的影响以外还有其它变量。加入一个误差项ε_i(也是一个随机变量)来捕获除了 x_i1,…,x_ip之外任何对 y_i 有影响的变量。所以一个多变量线性回归模型表示为::
式中,i=1,…,n;βn为常量参数;Xin为样本变量。
其他模型有可能被视为非线性的模型。线性回归模型并不依赖于自变量的线性函数。
(2)决策树与随机森林
在机器学习领域,决策树被视为一种预测工具,它揭示了对象属性与其对象值之间的对应关系。在此过程中,需要对每一条分支进行计算并将其转化为相应的叶子结点来描述对象的值。在树的结构中,每一个节点都代表了一个特定的对象,而每一个分叉的路径则代表了一个潜在的属性值。此外,每一个叶节点都与从根节点到叶节点的路径所代表的对象的值相对应。在进行训练时需要对所有叶子节点分别建模以获得决策规则集合,然后再把这些规则组合成决策树。决策树只产生一个输出,但如果存在多个输出,那么可以构建一个独立的决策树来处理各种不同的输出。因此决策树在数据挖掘领域应用广泛,尤其适用于数据稀疏性较大或具有复杂特征的数据类型。随机森林分类器的核心思想是将众多的决策树融合在一起,以增强分类的准确性。
2.1.2数据挖掘
数据挖掘的核心任务是对大量数据进行自动化或半自动化的分析,目的是挖掘过去未知但有价值的信息,例如数据的分类(通过聚类方法)、异常记录(通过异常检测手段)以及数据间的相互关系(利用关联式规则进行挖掘)。
2.1.3特征选择
在机器学习和统计学领域,特征选择也被称作变量选择、属性选择或变量子集选择,这是一个为了构建模型而选择相关特征(即属性、指标)子集的过程。特征选择技术可以有效地提高分类精度,减少数据冗余和计算量。特征选择技术的应用背后有三大驱动因素:它简化了模型结构,使其更容易为研究者或使用者所理解;缩减培训所需的时长,增强其普适性并减少过度拟合的情况。本文主要介绍了基于统计学习理论的特征选择技术及其应用现状。在应用特征选择技术时,一个核心的前提是:训练数据中存在大量的冗余或不相关的特征,因此删除这些特征并不会导致信息的丢失。在实际应用中,人们需要从大量的历史数据中提取有用的特征,以便更好地描述电力系统运行状态以及进行分析与决策。传统的电力负荷预测手段并不能准确地揭示电力负荷的不确定性,而尽管概率负荷预测方法能提供电力负荷的不确定性信息,但其对关键特征的挖掘研究相对较少,因此无法有效地揭示电力负荷的不确定性。
2.1.4相关性
相关性展示了两个或几个随机变量之间线性关系的强弱和方向。在统计学中相关性的意思是衡量2变量相对于它们相互独立的距离。在这个广义的情况下,有许多看不同数据来衡量数据相关性的而定义系数,称作相关系数。通常使用相关系数来计量这些随机变量协同变化的程度,当随机变量间呈现同一方向的变化时称为正相关,反之则称为负相关。通过特征量与负荷的相关性降低特征数量,减少输入数据的维数,选择与负荷序列具有相关系数最高的负荷变化率特征,可大大提高预测效率与准确性;。
2.2 数据集描述(2009-2015负荷数据+2012-2015气象数据)
本文档提供的电网短期负荷预测数据集包含20092015年的电网负荷数据和20122015年的气象数据,数据频率为15min,数据来源于国家电网公司内部系统,能够满足分析电网负荷变化规律以及负荷与气象因素之间的关联性分析需求。电网负荷数据的时间维度为0:00:00:15:00,表示某天第x个小时内的前15分钟的电网负荷情况;电网负荷数据的时间维度为1:00:00:15:00,表示某天第x个小时内的中15分钟的电网负荷情况;依此类推。该电网负荷数据的时间范围为2009年1月1日至2015年12月31日,包含了各月、每天不同时段以及遇到遇到节假日、特殊天气情况下的电网负荷数据。能够满足分析不同时段、不同月份以及不同天气情况下的电网负荷变化规律的需求。气象因素数据的时间维度为hour:minute:second,表示某天的第x个小时、第y分钟以及第z秒;气象因素数据的时间范围为2012年1月1日至2015年12月31日,时间跨度比较大,能够满足分析电网负荷与气象因素之间的时间尺度为天的规律;气象数据是从国家权威的气象观测点获取的,数据的准确性和精确度较高;。
2.3数据的预处理
从上述分析中,我们可以看出,受到社会和人文等多种因素的作用,非工作日的负荷变化模式与常规工作日存在显著差异。与非工作日样本较少和时间连续性较差的问题相比,工作日的负荷数据样本更为丰富,其变化的连续性也更为突出。因此,本研究主要集中在工作日负荷的变化上进行深入的研究和挖掘、
2.3.1 各季数据的筛查
鉴于我国地域广阔和各地气候的显著差异,文献[641)为我们提供了科学的气候季节分类标准和方法。接下来,我们将以南方某地区的气候为研究对象,深入探讨季节的科学分类。按照世界气象组织的相关规定,我们通常使用滑动平均温度来定义气象属性,并以5天内的滑动平均气温为基准:
式中:在这个公式里,TM代表第j日5天的滑动平均气温,其单位是摄氏度;6代表第j日的平均温度单位是°C。为了更精确地评估季节性气象负荷如何受到气象条件的影响,我们根据前述公式和气候季节分类标准,同时考虑到非工作日数据的质量,制定了该南方地区季节性气象敏感负荷数据的筛选准则。
(1)春秋季负荷数据筛选
南方地区春季受梅雨季节影响较大,秋季温度和春季相同,但是秋季降雨较少,春秋两季在一年中的滑动平均温度都保持在tm,te[10,22]°c。由此得到春秋两季负荷数据筛选规则:(1)依照常年的季候划分,选取滑动平均温度tm,e[10,22]°c,以及进入该区前一温度高于22°c的数据作为基础春季日样本;选取滑动平均温度te[10,22]°c,以及进入区前一温度低于22°c的数据作为基础秋季日样本;(2)依照国家法定节假日安排表,去掉节假日数据,但是保留周末数据;(3)依照电力部门的运行记录,剔除拉闸限电日数据。。
(2)夏季负荷数据筛选
夏季负荷数据筛选规则为:
1)选取常年季候划分基准的滑动平均温度大于22℃℃的期间内 的夏季日样本:2)剔除国家法定节假日安排表内的节假日数据以及地方性节日数据:3)剔除电力部门的运行记录内 的拉闸限电日数据:(4)剔除连续降雨天数大于3日 以及强降雨12小时内降雨量大于10mm)的数据:5)剔除前日最高温度在 28-38℃℃区间内,且当日最高突升或突降 3℃℃及以上的连续两日(d-1、do)数据。
将最高温度在 28-38℃℃之间,气温突升或突降 3℃及以上的当日和次日数据,视为夏季热累积效应显著的数据,简称热累积日。因南方地区降雨主要集中在夏季,故选取降雨量大于10mm 以及连续降雨3日及以上的数据作为降雨显著数据,简称降雨日,以研究降雨对负荷的影响。
(3)冬季负荷数据筛选
南方地区冬季温度低,并且与夏季不同的是,由于冬季降雨较少,负荷受降雨影响小,因此针对冬季负荷数据筛选规则如下:
1)根据常年季候划分准则选取滑动平均温度TM,E[0,10]℃℃的数据为基础冬季日样本;
2)考国家法定节假日安排表,去掉节假日数据,保留周末数据:
3)根据电力部门的运行记录,剔除拉闸限电日数据;
4)剔除前日平均温度在 0-10℃区间内,且当日最高突升或突降 3℃C及以上的连续两日(D-1、Do)数据。选取平均温度在 0℃℃-10C之间,气温突升或突降 3℃及以上的当日和次日数据,作为累积效应显著的数据,简称冷累积日。
2.3.2 气象数据预处理
(1)综合气象指数
在生物气象学领域,综合气象指数是一个用于评估人体在多种气象因素影响下感知能力的指标,它涵盖了实感温度、温湿指数、寒湿指数以及人体舒适度这四个主要指标60。其中,温度与湿度两个要素在不同时间有相同或相近的变化范围,而其余三个则随季节及天气条件而异,即存在着一定的季节性差异。通过使用T来表示摄氏温度,Rh来表示相对湿度,V来表示风速,我们得出了四个综合气象指标的计算公式
实感温度(Effective Temperature 7e)是一种将人体在不同的Rh、T环境下的感知状态转换为在静态饱和大气条件下能给人带来舒适感觉的温度状态的方法。本文通过对实际测温数据的分析,提出了一种简单实用的实测方法和相应公式。它的计算方法是这样的:
温湿指数(Temperature Humidity Index,TH)是反映人体在Rh、T这两种气象因素下的综合感觉程度,其计算公式为:
寒湿指数(Chillness Humidity Index,CHI)是衡量寒冷程度的指标,其计算公式为
人体舒适度指数(ComfortIndex,C)是对作用于人体的气象要素综合感受的评价指标,反映了多种气象因素共同作用下人体的舒适感,其计算公式为:
(2)地区加权综合气象
气象数据通常是按照地市来定义的,如果一个地区内存在m个城市,那么该地区每天都会有m个独特的气象样本。由于每个城市的地理位置、气候条件和气象观测仪器等都不一样,因此同一时刻各站测得的数据也可能会出现较大差异,这种差异性就是地区加权综合气象。为了对地区气象的总体变动进行系统性的分析,我们使用了地区加权的综合气象方法来描述在特定的时空背景下的天气变动,以下是具体的计算步骤:
其中,m表示研究区域的城市序号,M表示待研究区域的城市总数,Piadi表示m市在一定时空范围内的负荷量,Piada表示所研究区域在指定时空范围内的总负荷量5.为 m 市第i日的 k类气象因子,品为计算该研究区域所得加权气象因子,Pioadi/Pioad ai即 m 市的气象权重。
(3)气象数据的标么化
气象数据由于各个气象因子量纲不同,为了用纯数序描述一天的气象情况,需要将不同量纲的气象值进行统一,本文同样采用标么法对气象因子进行处理。气象因子的标么化公式。气象因子的标么化公式为:
其中:气象因子经标么化后,连续变化的气象数据在标么后相差不大,比如夏天连续高温日的气温标么值都统一到1附近,如果某天气温突变,则该气象值的标么值会偏离1。在历史气象数据统计分析时,采用气象标么化更有利于在历史气象大数据序列中识别存在突变的气象日。。
2.4 相关性分析
气象数据由于各个气象因子量纲不同,为了用纯数序描述一天的气象情况,需要将不同量纲的气象值进行统一,本文同样采用标么法对气象因子进行处理。气象因子的标么化公式: 气象因子经标么化后,连续变化的气象数据在标么后相差不大,比如夏天连续高温日的气温标么值都统一到1附近,如果某天气温突变,则该气象值的标么值会偏离1。在历史气象数据统计分析时,采用气象标么化更有利于在历史气象大数据序列中识别存在突变的气象日:
式中:r为相关系数,表示两个变量之间线性关系密切程度的指标;i为样本个数。如气象因素X与负荷L正相关r为正值,r=1时为完全正相关:如两者呈负相关时r<0,r=-1时为完全负相关。
第三章 基于数据挖掘的气象信息粒化
3.1 引言
本文探讨的电力系统的海量数据信息复杂多变,通过数据挖掘获得电力负荷受到多方面因素影响的变化规律,并通过数学技术将负荷变化的规律进行量化,是开展负荷预测科学管理的重要途径。短期负荷预测主要关注气象因素的影响,
3.2数据挖掘方法介绍
数据挖掘是从大数据中发现知识的一种挖掘技术,其基本定义是:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、最终却是有用的Information和Knowledge的过程,也就是知识挖掘、知识提取的过程,就是从大量数据中分析数据并寻找规律的技术。数据挖掘包括的任务有关联性分析、聚类分析、异常分析、演变分析等,但是无论数据挖掘技术如何发展,相似性仍然是大数据挖掘技术的灵魂。相似性分析离不开相似数据特征的提取,短期负荷预测所关注的相似性包括气象的相似性、负荷的相似性,下面重点介绍聚类分析技术。
。
3.3完全气象因子序列
由 2.8.2 的相关分析可知,短期负荷与多种气象因素存在密切的相关性,采2.8.2中的 20类气象指标能够基本上满足全面反映气象情况的要求,这里建立的完全反映区域气象情况的气象因子序列为;
其中现为第i日的气象信息集,x表示已知为参数的完全气象因子序列向量,x(5)中各项分别为i日第k个气象指标值,&=1,2,3,…,20,及表示的气象指标的特定含义,s为全体气象信息颗粒组成的系统。完全气象因子序列将影响负荷变化的气象指标以列向量形式表现,便於查找不同日期同一指标的变化,从而为进一步进行气象聚类分析带来方便。
3.4 空间多元回归分析
多元分析法是研究几个自变量与一个因变量之间的相互关系的数理统计方法,又称多变量分析法。由表2-4气象负荷的季节相关性系数可知,气象因素对负荷有相当的影响,其中与负荷相关性最高,但除温度外,相关系数大于0.5(存在相关性)的气象因子占相当比例。为找出对电力负荷预测具有积极意义的气象因子,本文采用空间多元回归分析来确定建立模型的变量,及其间的适当数学表达式::
其中y是日负荷值,bn是回归系数,x是经过地区加权综合后第i天的完全气象因子序列。多元回归的空间特性反映在气象因子上,本文将同一时间不同空间的气象指标标么化是为了把不同空间的气象指标统一到一起,因此完全气象因子就是空间的概念,"空间”的性质就体现在气象因子的时空统上。式(4)表明可以通过分析几天气象信息和负荷波动间的关系,以当日及历史几天气象序列为自变量,日负荷值为因变量,建立多元回归模型对未来日负荷进行预测。。
3.5 气象灵敏度分析
灵敏度分析法是一种用于研究和分析系统状态或输出变化对系统参数或其周围环境变化的敏感性的技术。此外,该方法还能确定哪些参数会对系统产生较大的影响。在本研究中,我们使用灵敏度分析法来确定负荷随特定气象条件变化时的最佳模型。一、基本思想所谓灵敏度就是当输入和输出发生变化时对系统所产生的响应大小,它表示了各参数值对某一性能指标的敏感度强弱,即对系统性能起重要作用的物理量。常用的灵敏度分析方法是求导法,通过一阶求导可以计算出因变量在自变量变化一个单位时的增量。当自变量和因变量同时发生变化时,就必须重新建立数学模型才能进行运算。假设自变量和因变量分别是x和y,并且它们的函数表达式是y=f(x),那么y对x的一阶导数就是这样的:
/'(x)也称为y在x点的变化率。类似的,对于多元函数z=/(x,y)对x的偏导数
以温度为例分析各年各月夏季灵敏度的变化情况,将温度区间分别定义为[TI,T],i=1.2……N,第i个区间的灵敏度为S:(i=1.2……N),则S计算如下
按上述方法可计算得到电力负荷相对于点气象因子变化时的灵敏度。由结合空间多元回归的灵敏度分析,本文提出日负荷极值预测模型如下所示:
其中 Po为基准日负荷(本文选取与待预测日期类型相同且实际负荷已知的一天为基准日),Δ5为预测日相对于基准日的k类气象因子点的变化量,5为基准日k类气象因子的历史值。a、6 为类气象因子相对负荷变化的灵敏度,一般情况下可以气温作为预测气象因子,另可根据季节变化选取表 2-4中相关系数高的气象因素作为预测因子。此方法不仅适用于日最大负荷预测,同样适用于日平均负荷、最小负荷,建模方式相同在此就不再赘余。
3.6空间滞后修正模型
由于大气运动的不可完全确定性,气象是有不确定性的,通常表现为气象的突变和续发累积两种,通常在我国南方低纬度地区表现的最为明显。表3-2的粒化成员q407采用空间滞后修正模型校正其极值预测错误。假设由多元回归的灵敏度分析模型对正常气象条件的负荷,即满足表 3-2的粒化条件 qr-q;的气象颗粒的预测是正确的。那么,对于待预测日,如果其气象条件满足表3-2的粒化条件q4-q,,则认为预测误差心是由特殊气象效应所引起。对特殊气象场景下的负荷预测进行修正建模,其实就是正常气象条件下的预测值与实际值的偏差进行修正。。
(1)累积效应修正模型
温度的累积效应时产生的负荷变化本质上是由温度的变化引起的,因此本文引入温度滞后突变量 AT 建立考虑累积效应的空间滞后修正模型。累积日当