摘要:【目的】对昆明市 2000—2015 年的火点数据进行分析,确定主要林火驱动因子,建立昆明市林火预报模型并进行火险区划,为昆明市林火预防提供参考。【方法】基于林火数据,选取气象、地形、植被、人为等 17 个林火驱动因子构建 Logistic 回归林火概率模型,并划分 5 个中间模型选取全样本的显著变量因子,用受试者工作特征曲线 (ROC) 进行模型检验与评价,基于全样本的模型结果分析昆明市主要林火驱动因子,并计算得到林火发生概率的最佳阈值,根据 Logistic 模型结果划分五级火险区。【结果】海拔、距居民点距离、距铁路距离、归一化植被指数 (NDVI) 值、月均地表温度、月均气压、月均相对湿度、月均风速、人均国内生产总值 (GDP) 等 9 个因子与昆明市林火发生概率存在显著关系;Logistic 模型的预测准确率高达 81.7%;ROC 曲线下面积 (AUC) 的值为 0.905;划分的最佳阈值为 0.342;火险区划的五级火险区面积比率分别为 48.82%、35.17%、11.26%、2.55%、2.20%。【结论】昆明市林火主要驱动因子是气象因子;昆明市高火险区集中分布在五华区、盘龙区、官渡区、呈贡区、西山区、安宁市等西南部地区。图 4 表 3 参 22
关键词:林火驱动因子;Logistic 回归模型;火险区划;卫星林火数据;昆明市
朱政; 赵璠; 王秋华; 高仲亮; 邓小凡; 黄鹏桂 浙江农林大学学报 2021-12-20
森林火灾是一种失去人为控制肆意燃烧毁坏林地的森林燃烧现象,严重威胁着生物多样性、森林生态系统和人类生命财产安全[1−2]。森林火险区划是有效防止和减小森林火灾危害的手段,结合火环境将森林区域划分为不同的火险等级便于分级管理[3]。国内外许多学者研究表明,林火受多种驱动因子共同影响,因子可以分为气象、地形、植被和人为因素[4−5]。森林火险区划与林火驱动因子之间存在复杂联系,根据前人研究,其划分方法主要包括模糊聚类法、主成分分析法、模糊综合评判法等[6−8]。 Logistic 模型是林火研究常用的一种回归模型,因其模型的解释性好和预测准确率较高被广泛应用在林火研究之中。本研究应用 Logistic 回归模型结合气象、地形、植被、人为等因素建立林火预测模型,对昆明市林火驱动因子进行分析并划分等级,以期为昆明市林火预防和管理工作提供参考。
1 研究区和数据 1.1 研究区概况
昆明市行政管辖范围包括 7 个区 6 个县,代管安宁市。地处云贵高原中南部,24°23′~26°22′N, 102°10′~103°40′E,行政面积为 2 1473 km2。地势北高南低,地形以高原为主,多数地区海拔为 1 500~ 2 800 m,垂直地域特征明显,物种多样性丰富。昆明属于亚热带高原季风气候,四季如春,日照长、霜期短,市区年平均气温为 15.0 ℃,全年干湿季明显,干季在 11 月至次年 4 月,属于森林火灾高频期。现有森林面积 110.69 万 hm2,森林覆盖率达 52.62%,森林蓄积量达 6 057 万 m3。主要树种有云南松 Pinus yunnanensis、华山松 P. armandii、栎类 Quercus spp.、杉木 Cunninghamia lanceolata、杨树 Populus spp.等。卫星火点数据 (图 1)表明:昆明市 2000—2015 年间共发生森林火灾 321次,落在昆明防火期 12 月到次年 5 月的火点有 280 个,占总火点的 80% 以上。
1.2 数据来源和处理
1.2.1 因变量 林火发生受多种驱动因子共同影响[9−10]。火点数据来自地理空间数据云平台 (http:// www.gscloud.cn/) 提供的 MOD14A2 卫星火点数据。该数据为 8 d 合成数据,该产品被国内外学者用于林火的广泛研究[11−12]。用 ArcGIS 10.7 对下载的 MOD14A2影像数据投影和裁剪获得昆明市范围的影像数据,利用重分类功能将 firemask 灰度属性值按照 0~6 和 7~9 划分为未过火和过火像元,将过火像元比对昆明市地物类型图,将所有落在类型为林地的火点提取作为本研究使用的林火数据。
1.2.2 自变量 选取气象、地形、植被、人为活动等共 17 个因子。地形初始变量有海拔、坡度、坡向,数据来源于地理空间云 (http://www.gscloud.cn/) 的 GDEMV2 30 m 数字高程模型 (DEM) 数据。使用 ArcGIS 10.7 按掩膜提取昆明市 DEM,采用“值提取到点”分别提取各火点对应的值。气象初始变量有月均地表温度、月均气压、月均相对湿度、月均风速、月均气温、月均日照时长,数据来源于中国气象数据共享网 (http://cdc.cma.gov.cn/),气象数据采用月均值的方式计算,对各火点直接赋值。植被数据有植被类型和季度归一化植被指数 (NDVI)。植被类型来源于全国地理信息资源目录系统下 30 m 全球地表覆盖数据 Globeland 30,运用 ArcGIS 10.7 值提取至点,得到分类变量值。NDVI 来源于中国科学院资源与环境科学与数据中心下中国季度 1 km 植被指数空间分布数据集,数值分为春夏秋冬 4 个季节,对火点年份和月份按照对应的季度 NDVI 进行分类和提取。人为活动因素有距河流距离、距居民区距离、距公路距离、距铁路距离、人均国内生产总值 (GDP)、人口密度,数据来源于全国地理信息资源目录系统下 1∶25 万全国基础地理数据库和中国科学研究院资源与环境数据中心下分辨率 1 km 人口和 GDP 格网数据。导入基础设施矢量图后,利用 ArcGIS 10.7 的近邻分析工具得到火点距离各要素的最近距离,人口密度和人均 GDP 只有 2000、2005、2010 年的栅格数据,通过比对《云南省统计年鉴》测算各年人口密度和人均 GDP 增长率,用“值提取至点”功能得到各火点对应数据。各变量因子之间的量纲不同且存在数据级之间的巨大差别,为消除量纲,避免存在数据级引发的结果贡献问题,对数据采取归一化处理。
2 研究方法 2.1 二项 Logistic 林火回归模型
二项 Logistic 回归模型可以有效进行二分类数据的判别,被国内外学者广泛运用于林火区划[8,13]。以林火发生概率作为二项 Logistic 回归模型的因变量,以 y=1 或 0 代表林火是否发生。设 P 为林火发生概率,则林火未发生概率为 1−P,由此得公式: P = eβ0 +β1 x1 +β2 x2 +···+βjx j 1+eβ0 +β1 x1 +β2 x2 +···+βjxj 。将上面公式做 logit 变换,得到公式为: ln( P 1− P ) = β0 +β1 x1 +β2 x2 +···+βjxj。 β0 β1 β2、···、βj x1、x2、···、x j e ln( P 1− P ) 其中: 、 、 为各自变量因子的回归系数, 为各自变量因子, 为常量, j 为自变量个数,P 为林火发生概率, 为 P 的比数的对数。建立二项 Logistic 林火预测回归模型时,需要一些随机非火点与火点共同构成样本数据。基于前人的研究经验[14],将火点与非火点比例调整为 1∶2,对非火点日期进行随机赋值,保证时间和空间上的双随机。将样本数据随机分成 60% 作为模型样本,40% 进行独立检验,重复 5 次随机划分,避免样本分布对最终模型结果的影响。
2.2 多重共线性检验
多重共线指变量因子之间存在相关关系使模型精度下降,利用多重共线性诊断可以有效剔除相关变量。使用方差膨胀因子 (VIF) 进行多重共线性检验,通常认为 0
2.3 自变量筛选
为减小随机选择自变量对建模结果的影响,提高模型的精确度,采用 SPSS 中系统默认的“强迫回归方法”进行自变量的筛选,逐步剔除变量使剩余变量 VIF 值均小于 10。在上述 5 次划分的随机模型中选取至少出现 3 次的显著变量参与全样本数据的拟合。
2.4 模型检验
受试者工作特征曲线 (receiver operator characteristic curve,ROC) 常用于评价分类模型精度和计算最佳阈值。该曲线以特异性 (正类误判为负类) 为横坐标,以敏感性 (正类判断为正类) 为纵坐标,ROC 曲线下面积 (area under curve AUC) 的值用来评价模型的精度,AUC 的值越接近于 1 则表示该模型的精度越高,通常认为 AUC>0.8 时该模型拥有较好预测能力[15]。约登指数 (Youden index,敏感性+1-特异性) 是 ROC 曲线上最靠近左上角的一点,代表两分类模型预测准确度最佳阈值[16],用该阈值计算可以得到模型的预测准确率。
2.5 火险概率及火险等级划分
依据全样本运算得到的 Logistic 回归方程式计算结果,使用 ArcGIS 的克里金插值法进行图层运算,获得昆明市的林火发生概率分布图。《全国森林火险区划等级》 [17] 将全国森林火险等级划分为 3 级,但该标准只适用于县级或林场的等级区划,对于大区域的宏观预测精度和指导意义远远不够。本研究按照前人的经验和国际惯例[18],依据概率等间距将昆明市划分为五级森林火险:0~0.2 为一级火险区, 0.2~0.4 为二级火险区,0.4~0.6 为三级火险区,0.6~0.8 为四级火险区,0.8~1.0 为五级火险区。
3 结果与分析 3.1 自变量确定
共线性诊断适用于连续变量不适用于分类变量,因此,先对 15 个连续变量进行多重共线性诊断,再综合 5 个中间模型加上非连续性变量“植被类型”和“坡向”进行模型显著性检验确定最终林火驱动因子。多重共线性诊断的结果如表 1 所示:在剔除月均气温之后,不存在多重共线性。将筛选的连续变量和分类变量采用“Wald 向前”原则对 5 个样本进行拟合,选择结果中出现 3 次及以上的显著变量作为全样本模型的自变量因子,全样本的拟合结果如表 2 所示。
3.2 模型检验结果与评价
如 图 2 所示: 用 ROC 曲线分别计算模型 的 AUC 和约登指数并以此计算测试样本预测准确率。如表 3 所示:5 个中间模型的样本的 AUC 值均大于 0.890,对样本的预测准确率均高于 80%,全样本 AUC 值为 0.905,预测准确率为 81.7%,说明 Logistic 回归模型对昆明市林火发生预测有较好的预测效果,适用于昆明市林火发生预测。根据全样本拟合结果建立昆明市 Logistic 回归概率模型为: ln( P 1− P ) = −2.138x1 +1.768x2 −1.373x3 −3.159x4+ 2.110x5 −1.654x6 −2.373x7 +1.169x8 +6.638x9 +2.061。 x1 x2 x3 x4 x5 x6 x7 x8 x9 其中:P 是林火发生概率, 为海拔, 为居民点,为离铁路距离, 为 NDVI, 为月均地表温度,为月均气压, 为月均相对湿度, 为平均风速, 为人均 GDP。
3.3 昆明市火险概率及火险等级区划
由图 3 可见:5 类森林火险等级分别占昆明市区面积的 48.82%、35.17%、11.26%、2.55%、2.2%,高火险地区集中分布在五华区、盘龙区、官渡区、呈贡区、西山区、安宁市等,四级和五级火险区集中在一起。与实际火点进行比对,这片区域发生历史火灾集中且次数最多。总体来看,昆明市的重点火险区主要分布在昆明市西南部、嵩明县的中部地区、东川区的边界和石林彝族自治县的中部地区。
3.4 林火驱动因子与火点频次关系
从表 3 可以看出:对昆明市林火发生概率具有显著影响的林火驱动因子分别为海拔、距居民点距离、距铁路距离、NDVI 值、月均地表温度、月均气压、月均相对湿度、月均风速、人均 GDP。由图 4 可得:火点集中在距居民区 1 500~2 500 m,这个区间属于人口密集区,人为活动频繁导致林火发生概率增大。火点集中分布在月均地表温度 15~25 ℃ 区间,该温度对应昆明市春夏季,此时正是昆明市的防火期,降水稀少,日照时间长,可燃物含水率低,容易引发火灾发生。昆明市火点频次在月均风速 2.0~4.0 m·s −1 时呈下降趋势,到达 4.5 m·s −1 先上升后下降,该区间对应昆明市春夏季过渡到秋季,降水增多,植物含水率和温度较低,不易发生火灾。 11 月进入冬季,为昆明市防火期时段,从月均相对湿度来看,昆明市火点主要集中在 40%~60%,在相对湿度高于 60% 之后的区间,月均相对湿度与火点频次呈负相关关系。
火频次与距铁路距离关系呈明显的负相关,火点主要分布在 0~20 km 的区域内,随距离增加,火点越来越少,距居民区的火点集中在 0~2 000 m 的区域内,2 000 m 以后呈明显的负相关。人均 GDP 与火点频次呈明显的负相关,随人均 GDP 的增长火点减少,人均 GDP 较少的区域多处于农村、乡镇区域,森林面积大,火点占有可能性较高。NDVI 代表植被覆盖率,其值与植被覆盖率呈正比关系,火点落入 0.2~0.5 最多,这表明昆明市火灾易发生在森林覆盖率低的地带,该区域可燃物较少且容易干燥引发火灾。
4 结论与展望
林火驱动因子中,月均地表温度、月均气压、月均相对湿度、月均风速都属于气象因素,气象因素是影响昆明市林火发生的主要因素。气象因素影响火三角中可燃物与温度这 2 个因素,相对湿度影响可燃物含水率,抑制林火发生,与林火发生呈负相关[19]。地温和风速通过减小可燃物含水率影响林火发生,风速还可以加快空气流动,影响火灾蔓延的方向和速率,与林火发生呈正相关。气压随海拔升降发生变化,火点落入 806~816 hPa 为多,其中,火点主要分布在 810 hPa。昆明市范围内的林火不仅受到气象因素的影响,还受到地形、可燃物、人为活动等因素的共同影响,气象因素决定大范围内林火发生的可能性,而地形、可燃物、人为活动等因素从更精细的空间角度预示着潜在的林火分布状况。
进行二项 Logistic 多重线性诊断时,5 个中间模型得到的林火驱动因子都不相同,海拔作为显著变量却成为中间模型剔除因素,林火驱动因子之间存在复杂关联,仅仅考虑自变量之间的相关性可能会剔除模型中存在重要影响的因子[20]。本研究选取了当前林火驱动因子所有时间段的数据,Logistic 回归风险模型进行拟合,没有考虑可能存在气候差异明显的时间段,比如昆明市存在明显的干湿季,对于林火发生概率也会产生显著影响。在接下来的的研究中应考虑做多个不同时期的森林火险区划。除本次研究中使用的 Logistic 回归模型以外,预测林火的模型还有随机森林算法、地理加权回归模型等,国内已有相关学者用于林火预测的研究[21−22]。不同林火模型对于地区的适用性和解释性都不相同,可针对昆明市的林火分布特征找出最优解释模型。本研究所选的自变量没有包含日值气象数据,对于极端值情形研究不足,可将研究极端值情况对于林火发生概率的影响。