研究水质变化趋势是水质监测的重要内容。水质变化过程是一个连续的过程,只是我们监测到的数据是离散的。由于水质监测数据具有不等时间观测、非线性变化的特点以及其数据内部表现出的函数性特征,考虑采用函数型数据分析方法进行研究。在本文中,我们在对样本数据进行函数化处理的基础上,本文将函数型回归模型应用于松花江肇源段的水质分析中,预测效果良好,为该地区的水质监测提供参考。
大多数水质变化过程是一个连续的过程,这个过程生成的统计数据可以用一个类似函数的特征表达式来描述,而通过现有的统计手段所获取的信息往往是一个不连续的、片段的、离散的有界、有序的数列。函数型数据分析方法则能较好地处理这一类的数据:它将观测数据的产生当作一个函数过程,认为样本数据之中存在着某种函数型特征,采用连续函数的方法将原本的离散数据有效地联系起来,更好地探究了数据本身的非线性变化趋势[1];针对函数数据的研究的目的与其他传统的统计学一样:在统计学思想和分析的指导下阐述问题;研究能够凸显数据重要特征的表现方式;为观测得到的数据建立统计模型等等[2] [3] [4] [5]。水质预测是一个经典问题,使用的方法很多,回归分析是其中最常用的方法之一。
但这些方法都是基于离散数据的方法,忽略了数据背后隐藏的连续性,采用函数型数据分析可以挖掘数据的隐藏信息。实际上,函数数据分析中的各个方法比如回归分析、聚类分析等在水质数据分析、空气质量数据分析等领域得到较为广泛地应用[6] [7] [8] [9]。
本文将应用函数型数据分析方法进行黑龙江肇源水质数据的预测问题, 实现更有效地监测水质的目的。
2. 函数型数据及函数型多元回归模型 2.1. 函数型数据 函数型数据(Function Data)是指一个集合,该集合中的元素均为定义在某个连续区间上的函数。
()()()()1122121212, , , , , , , , , , , , , pppnpfx xxfx xxF x xxfx xx= (1) (), , 1,2, , jxjp∈−∞+∞= 函数型数据是连续的数据,而一般的数据采集都是离散的。因为通过观察得到的原始数据通常以表格形式存储,这可以理解为对函数数据的截取,是自变量取一些特定的值所对应的函数值,他们是函数离散化的记录形式。显然,Ramsay 所提出的函数型数据的定义域是整个区间,所以函数型数据可以包含的信息,比常见的以数据表形式出现的离散数据所包含的信息更多。
从离散的观测数据中提取连续的函数数据, 我们可以用基函数法、小波变换、核函数等[10]。
本文中, 我们介绍基函数法,其核心是用离散的观测值来估计其函数模型,可用下列公式表示 ( )( )1ˆkkkKx tctϕ== ∑ (2) 其中基函数( )()1,2,3, , k tkKϕ=的选择和系数向量()1, , kccc ′=的估计是两个难点。
我们可以选择傅里