主成分分析法在扎龙湿地水质评价中的应用
导读::刘小楠[7],万金保[8]等人分别利用主成分分析法对河流水质进行评价。目前常用的水质评价方法有简单指数法、综合污染指数法、模糊数学法等。然而,在扎龙湿地水质监测评价方面。
关键词:主成分分析法,水质评价,扎龙湿地
湿地水环境系统是一个丰富完整的生态系统,是自然界最富生物多样性的生态景观和人类最重要的生态环境之一。因此选择适当的评价方法,对湿地水环境质量进行评价与分析显得尤为重要。湿地的水环境状况受多种因素影响和控制,各参数之间相互影响、相互制约,故有必要对其进行多种参数的综合评价[1]。目前常用的水质评价方法有简单指数法、综合污染指数法、模糊数学法等,但不能有效提取现实污染因子[2]。
主成分分析法(Principal component analysis)是将多个指标标准化为少数几个综合指标,简化了统计分析系统的结构,它是在确保不损失原有信息的前提下,将多种影响水质的指标重新组合成一组新的、相互之间无关的、较少的综合指标,来反映指标的信息环境保护,以达到降维、简化数据和提高分析结果的可靠性的目的[3]。Wenning[4],Battegazzore[5],Voutsa[6]等早于1994年和1995年已经将主成分分析方法广泛应用于流域水质分析评价中;刘小楠[7],万金保[8]等人分别利用主成分分析法对河流水质进行评价。然而,在扎龙湿地水质监测评价方面,大多数研究限于湖库富营养化及单一指标的监测和评价,大多采用某一指标超标率进行报道,对扎龙水环境进行综合评价,除周林飞等采用灰色聚类法对其水环境质量综合评价,也未见其他报道。文中采用SPSS软件,参照主成分分析建模的基本原则和步骤,探究扎龙湿地水环境恶化的主要污染成因和主要污染断面,以期为扎龙湿地水环境治理提供有力的理论支持。
1 水质评价中的主成分分析
主成分分析法是一种数学变换方法,它把给定的一组相关变量通过线性变换,转化为一组不相关的变量(两两相关系数为0的随机变量),在这种变换中通过保持变量的总方差不变,同时使新变量具有最大方差,称为第一主成分;具有次大方差,称为第二主成分。依次进行,原来有M个变量就可以转换出M个主成分,方差逐渐减小且与此前的主成分都不相关[9-10]。原始变量:X1, X2 , X3 环境保护环境保护,X4,…,Xm; 主成份:Z1, Z2 , Z3 ,Z4,…,Zn,则各因子与原始向量的关系可表达成[11]:
X1=B11Z1+B12Z2+B13Z3…B1nZn+e1
X2 =B21Z1+B22Z2+B23Z3…B2nZn+e2
X3 =B31Z1+B32Z2+B33Z3…B3nZn+e3
…
Xm=Bm1Z1+Bm2Z2+Bm3Z3…BmnZn +en
写成矩阵形式:X=BZ+E
主成分分析法在水质评价中主要体现在以下两个方面:一是建立综合评价指标,评价各采样点间的相对污染程度,并对各采样点的污染程度进行分级;二是评价各单项指标在综合指标中所起的作用,指导删除那些次要的指标,确定造成污染的主要成分[7]。
假设有n个水体样本,每个样本共有m个监测指标,则可构成n×m的数据矩阵(n具体分析步骤如下:
a)将各变量χnm标准化以消除量纲影响。
b)在标准化数据矩阵的基础上计算原始指标相关系数矩阵R。
c)求相关系数矩阵R的特征根和特征向量,确定主成分。
d)确定主成分的个数。
e)确定综合评价函数。
2 扎龙湿地水质评价
2.1 样本点及监测指标的确定
扎龙湿地位于松嫩平原乌裕尔河和双阳河下游,黑龙江西部,地跨齐齐哈尔市、大庆市、富裕县、林甸县、泰来县,地标为 E:123°51′-124°37′,N:46°48′-47°31′。该湿地面积2,100 km2环境保护环境保护,属于中温带大陆性季风性气候,年均气温2℃-4.2℃,1月极端最低气温-43.3℃, 7月极端最高气温39.0℃,年均降水量402.7 mm。典型沼泽植被为芦苇、苔草,其中芦苇湿地面积占80-90%[12]的格式期刊网。扎龙湿地是我国最大的以鹤类等大型水禽为主体的珍稀鸟类国家级自然保护区,丹顶鹤最重要的集中繁殖栖息地。近年来,旅游开发及湿地周边工业废水和生活废水的排放,天然降雨量与上游来水量减少等诸多原因导致扎龙生态系统遭到破坏,因此综合系统评价扎龙湿地的水质对丹顶鹤的繁衍保护,及创造人类良好的生活环境尤为重要。
依据地表水监测采样断面布设原则,于扎龙湿地流域布设代表性水质监测8个断面,选取Mn、Pb、Zn、Cu、SS、硫酸根、总磷、磷酸根、酚、TOC、总氮、氨氮、硝酸盐氮、亚硝酸盐氮共14项监测指标进行监测评价。监测断面信息如表1所示:
表1 监测断面信息
Tab.1 sampling information
序号 |
名称 |
地标 |
季节 |
Temp/(℃) |
DO/(mg/l) |
Ph |
A |
龙安桥 |
E:124°22.791′, N:47°21.752′ |
夏 |
20.2 |
12.39 |
7.63 |
B |
东升水库 |
E:124°29.826′, N:47°18.025′ |
夏 |
19.02 |
11.5 |
8.5 |
C |
龙湖 |
E:124°12.750′, N:47°10.796′ |
夏 |
17.39 |
12.52 |
8.96 |
D |
仙鹤湖 |
E:124°13.950′, N:47°11.727′ |
夏 |
19.05 |
7.88 |
8.36 |
E |
克钦湖 |
E:124°18.793′, N:47°20.187′ |
夏 |
17.94 |
13.08 |
8.44 |
F |
特勒桥 |
E:124°00.790′, N:47°00.202′ |
夏 |
20.06 |
13.21 |
8.54 |
G |
林甸排污口 |
E:124°50.214′, N:47°10.487′ |
夏 |
20.69 |
6.96 |
8 |
H |
翁海排干 |
E :124°13.813′, N:47°15.281′ |
夏 |
20.04 |
9.42 |
8.37 |
2.2 主成分筛选主要污染指标
利用SPSS对扎龙湿地14项水质参数进行标准化处理,并得出相关系数矩阵,对评价指标Mn、Pb、Zn、Cu、SS、硫酸根、总磷、磷酸根、酚、TOC、总氮、氨氮、硝酸盐氮、亚硝酸盐氮的特征值进行计算,以确定评价的主因子数,据特征值方差累计贡献率确定选取主成分的个数。
利用SPSS求得其特征值和主成分贡献率及累计贡献率,可求得第1、2、3主成分的特征值分别为9.590、2.059、1.193均大于1,方差贡献率分别为68. 503%、14.706%、8.520%,其累计方差率达到了91.730%,大于主成分法中规定的85%[8,13,14],可以代表水质评价中原始指标提供的大部分信息,因此利用它们对各观测点水质进行可比性研究。其中第一个主成分又是最重的环境保护环境保护,包含信息最多,反应水质特征最多。
表2 旋转后的因子提取结果
Tab.2 Rotated component matrix
表3 各因子的得分信息
Tab.3 Component scores
成份 |
|||
1 |
2 |
3 |
|
总磷 |
.996 |
-.037 |
.059 |
Mn |
.995 |
.047 |
.079 |
氨氮 |
.993 |
.065 |
.081 |
磷酸根 |
.990 |
.045 |
.089 |
Cu |
.990 |
.097 |
.078 |
酚 |
.987 |
.112 |
.081 |
Zn |
.986 |
.048 |
-.035 |
SS |
.971 |
-.008 |
.102 |
总氮 |
.962 |
.003 |
.188 |
硝酸盐氮 |
-.638 |
-.297 |
.398 |
TOC |
-.253 |
.942 |
.175 |
亚硝酸盐氮 |
.467 |
.850 |
.192 |
Pb |
-.104 |
-.051 |
-.820 |
硫酸根 |
.109 |
.272 |
.773 |
成份 |
|||
1 |
2 |
3 |
|
Mn |
.106 |
-.021 |
.012 |
Pb |
.020 |
.115 |
-.563 |
Cu |
.104 |
.010 |
.002 |
SS |
.105 |
-.058 |
.038 |
硫酸根 |
-.026 |
.029 |
.491 |
酚 |
.103 |
.019 |
.002 |
TOC |
-.069 |
.558 |
-.032 |
总磷 |
.110 |
-.070 |
.012 |
磷酸根 |
.105 |
-.024 |
.019 |
总氮 |
.100 |
-.066 |
.097 |
硝酸盐氮 |
-.074 |
-.229 |
.354 |
氨氮 |
.105 |
-.010 |
.010 |
亚硝酸盐氮 |
.014 |
.472 |
-.030 |
Zn |
.109 |
.000 |
-.068 |
根据表2,反应主成分1的水质指标主要是总磷(a)、Mn(b)、氨氮(c)、磷酸根(d)、Cu(e)、酚类(f)、Zn(g)、SS(h)、总氮(i)、硝酸盐氮(j),根据表3各成份得分系数可得线性表达式F1:
F1=0.110a+0.106b+0.105c+0.105d+0.104e+0.103f+0.109g+0.105h+0.100i
+0.074j(1)
分析上述线性表达式F1可作如下解释:第1主成分F1中含10项正值,说明该主成分与对应指标是正相关。主因子1反应的主要是氮磷、酚类、及重金属等污染,根据表达式中系数的数值绝对值相差不明显,因此主因子1反应扎龙污染是各项指标的综合反应,不是某项指标的突出反应,需要同时治理。同理,根据表2和表3的信息,可以确定主成分2反映了污染的类型为有机污染及硝化作用不完全带来的亚硝酸盐类污染;主成分3反映了Pb和硫酸根等由工业污染源带来的重金属污染。
以上污染形成的原因主要是:(1)扎龙湿地属于长期演化形成的潜育化湿地,自上而下分为草根层、泥炭层、腐殖质层和粘土层,其中泥炭层和腐殖质层对水中悬浮物、有机物、重金属及氮磷有强烈的吸附作用,使污染物进入湿地小尺度地球化学循环,这是造成湿地内源富营养化的根源[15];(2)保护区流域周边的富裕、林甸、克山、克东、依安的工业废水和生活污水排放,农药化肥施用和污水灌溉通过地表径流加重了湿地的有机污染;(3)湿地营养物总体含量过高,导致植被在生长季节对有机物的过滤作用较弱,对氮磷污染物的净化作用不明显;(4)扎龙湿地赖以生存的主要补给水源乌裕尔河,其径流量较小环境保护环境保护,冬季经常断流,并且出流量受东升水库的影响。湿地水源的匮乏也加剧了湿地环境的污染。
2.3 主成分评价主要污染断面
利用SPSS对扎龙湿地8个断面进行主成分分析,以确定断面的相对污染程度,根据特征值方差累计贡献率确定选取主成分的个数。利用SPSS求得特征值和主成分贡献率及累计贡献率分别见表4-6的格式期刊网。
图1 采样断面位置关系图
Fig.1 sampling location
用与污染指标相同的方法构建因子f1,f2的线性表达式如下:
f1=0.174×林甸排污口+0.171×龙湖+0.169×仙鹤湖+0.146×翁海排干+0.131×特勒桥+0.120×东升水库+0.161×龙安桥(2)
f2=0.906×克钦湖(3)
根据表4,第1、2主成分的特征值分别为6.423、1.041均大于1,累计方差率达到了93.296%,第1主成分贡献率为80.282%远远大于第2主成分的13.013%,主成分2中污染在分析中弱化考虑,根据监测断面关系(图1),可知克钦湖的污染程度较轻,核心区和缓冲区交界污染较轻。因此f1表达式代表了断面的信息,林甸排污口,仙鹤湖,龙湖,龙安桥对污染贡献较大,翁海排干和特勒桥与东升水库稍微次之。
成份
初始特征值
旋转平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
6.423
80.282
80.282
6.238
77.974
77.974
2
1.041
13.013
93.296
1.226
15.322
93.296
3
.405
5.065
98.361
4
.093
1.160
99.521
5
.028
.347
99.868
6
.009
.118
99.986
7
.001
.012
99.998
8
.000
.002
100.000
表5 因子提取结果
Tab.5 Component matrix
表6 各因子的得分信息
Tab.6 Component scores
成份 |
||
1 |
2 |
|
林甸工业 |
.992 |
.050 |
龙湖 |
.988 |
.069 |
仙鹤湖 |
.984 |
.080 |
翁海排干 |
.956 |
.201 |
特勒桥 |
.944 |
.290 |
东升水库 |
.921 |
.331 |
龙安桥 |
.806 |
-.090 |
克钦湖 |
.085 |
.985 |
成份 |
||
1 |
2 |
|
龙安桥 |
.161 |
-.202 |
克钦湖 |
-.129 |
.906 |
东升水库 |
.120 |
.174 |
林甸工业 |
.174 |
-.098 |
特勒桥 |
.131 |
.132 |
翁海排干 |
.146 |
.048 |
仙鹤湖 |
.169 |
-.070 |
龙湖 |
.171 |
-.080 |
以上污染形成的原因主要是:(1)龙安桥位于乌裕尓河源头引嫩所在地区,该地区已形成了以酿造、食品、纺织、造纸、机械、化工、医药等门类齐全的工业体系,并且克东、克山、依安三县的工业废水通过自然沟直接排入乌裕尔河;(2)富裕、林甸两县工业废水直接排放到保护区内的沼泽湿地,因此造成龙安桥,林甸排污口的严重污染;(3)湿地核心区因上游污染的水体和林甸排放口排入沼泽湿地的污水共同作用环境保护环境保护,(仙鹤湖和龙湖)湖库呈现明显的有机污染和重金属污染;(4)湿地内主要由引嫩水体和林甸排污口排入污水,流经东升水库,并由水库控制的两部分水流构成,因此湿地核心区的进水口(东升水库)和出水口(特勒桥)及农田退水区(翁海排干)因主要受单一水流流向污染,相对污染较轻,因两部分水流均汇集到湿地核心区域,因此核心区域污染比湿地交界处更严重,因此可知扎龙湿地的东升水库等水利工程人为干扰造成的水利流向不利于湿地保护,使得核心区污染严重。通过调查,得知上述数据与扎龙流域的实际情况很符合。
2.4 单一指标验证污染状况
根据2.2和2.3分析得知,氮为主要污染物,仙鹤湖,龙湖,龙安桥污染较严重,翁海排干和特勒桥与东升水库稍微次之。为了进一步证实主成分分析是有效的统计分析方法,针对单一氮指标,验证主要污染监测断面。利用SPSS构建旋转成份矩阵并判定成份得分矩阵如下表7和表8,并获得线性表达式如下:
P1=0.183×龙湖+0.172×林甸工业+0.171×仙鹤湖+0.152×龙安桥+0.140×翁海排干+0.044×东升水库(4)
P2=0.797×克钦湖 (5)
表7旋转成份矩阵a
Tab.7 Component matrix
表8 成份得分系数矩阵
Tab.8 Component scores
成份 |
||
1 |
2 |
|
龙湖 |
.999 |
.044 |
林甸工业 |
.994 |
.106 |
仙鹤湖 |
.994 |
.111 |
特勒桥 |
.992 |
.130 |
龙安桥 |
.978 |
.206 |
翁海排干 |
.966 |
.260 |
东升水库 |
.786 |
.618 |
克钦湖 |
.047 |
.999 |
成份 |
||
1 |
2 |
|
龙安桥 |
.152 |
-.001 |
克钦湖 |
-.162 |
.797 |
东升水库 |
.044 |
.364 |
林甸工业 |
.172 |
-.085 |
特勒桥 |
.167 |
-.065 |
翁海排干 |
.140 |
.044 |
仙鹤湖 |
.171 |
-.081 |
龙湖 |
.183 |
-.136 |
将表达式P1和2.3中表达式f1比较可知,主要污染断面均为龙湖、林甸工业、仙鹤湖、龙安桥、翁海排干、东升水库环境保护环境保护,并且污染系数值相差较小,只是个别污染断面程度排序略有差异,因此利用主成分分析对单一指标的水质评价和多参数水质综合评价都是有效的评价办法。
3结论
借助SPSS软件,采用主成分分析方法研究扎龙湿地水质特征,结果表明:从原始数据中提取占总方差的91.730%的3个因子来反映水体的污染程度,确定主要污染物:氮磷、酚类、及重金属等污染;对断面主成分分析研究断面相对污染程度,结果表明:由于工业活动及不合理的水利工程,造成了湿地核心区域没有得到合理的保护,使得湿地核心区污染严重比外围的交界处更严重,其中仙鹤湖,龙湖,龙安桥污染贡献最严重,翁海排干和特勒桥与东升水库稍微次之,结果与实际情况相吻合,说明主成分分析法是一种有效的水质评价方法。
参考文献
[1]周林飞,许士国,孙万光.基于灰色聚类法的扎龙湿地水环境质量综合评价[J]. 大连理工大学学报,2009,42(2):240-245.
[2]何晓群.现代统计分析方法与应用[M].北京:中国人民大学出版社,1998.
[3]郭翔云.主成分分析法在白洋淀水质评价中的应用[J].海河水利, 2005, 5: 55-56.
[4]Wenning, R.J., Erickson, G.A. Interpretationand analysis of complex environmental data using chemo metric methods [J].Trends in Analytical Chemistry,1994,13:446–457.
[5]Battegazzore, M. Integrated chemical andbiological evaluation of the quality of the river Lambro [J].Water Air, SoilPollution, 1995,83:375–390.
[6]Voutsa,D., Zachariadis, G., Samara, C.,Kouimtzis, T.. Evaluation ofchemical parameters in Aliakmon River in Northern Greece[J].Journal ofEnvironmental Science Health,1995,30:1–13.
[7]刘小楠,崔巍.主成分分析法在汾河水质评价中的应用[J].中国给水排水,2009,
25(18):105-108.
使用微信“扫一扫”功能添加“谷腾环保网”