跳转到主要内容

原始研究的文章

前面。建立环境。,09 November 2022
秒。风工程和科学
卷8 - 2022 | https://doi.org/10.3389/fbuil.2022.1015804

一个案例研究和参数分析预测hurricane-induced构建损害使用数据驱动的机器学习方法

www.雷竞技rebatfrontiersin.org史蒂文Klepac www.雷竞技rebatfrontiersin.orgArthriya Subgranon*www.雷竞技rebatfrontiersin.orgMaitane Olabarrieta
  • 公民和海岸工程系,佛罗里达大学盖恩斯维尔,佛罗里达州美国

随着沿海人口逐年增加,越来越多的人们和建筑支持他们离开容易受到严重危害与飓风有关,有迹象表明增加强度和频率与气候变化有关。基层决策是至关重要的充分准备与即将到来的飓风和相关的风险人群适应建筑更有弹性。这将创建一个需要先进的数据驱动的机器学习等方法来预测建筑物的损失将经历在飓风和支持社区利益相关者的决策。先前的研究已经试图主动预测飓风破坏使用数值框架为个体建筑原型或将窄谱的输入特性。本研究的重点是训练建立一种新的机器学习框架,风险,和地理空间数据从飓风哈维追算伤害,厄玛,迈克尔,和劳拉,预测的目标预期未来飓风造成的损失。不同算法的性能进行了包括再邻居,决策树,随机森林,梯度提高树算法。在预测定性损伤状态,随机森林追算优于其他算法准确率达到了76%。确定哪些特性参数研究提供最准确的预测,证明了预测精度与额外的增加了对这个案例研究的线性侦察数据训练模型。最后,这个模型之间的比较是吸引和联邦应急管理署的能力Hazus多种灾害飓风模型来估计构建特殊损害在同一追算组建筑。

1介绍

在美国东南部沿海社区的风险很大程度上频繁的飓风摧毁这个地区每年,这只是加剧了快速城市化在海岸附近。尽管全球出现的自然灾害及其造成的经济损失每年波动,Mohleji和皮尔克(2014)提供全面审查这样的损失从1980年到2008年,表明全球损失每年31亿美元的速度增加,飓风的危害在北美占57%。专注于美国大陆,大多数的这些损失发生,197年飓风发生在1900年至2017年之间,导致206年一直在美国和近170亿美元的年度损失,归一化2018美元价值(Weinkle et al ., 2018)。绝大多数的飓风灾害造成这些损失发生在沿海县,人口密度远远大于内陆社区。从2000年到2016年,美国墨西哥湾沿岸县人口增长了24.5%,与14.8%的全国平均水平相比,与一些海湾沿岸县看到人口增加超过35%这一时期(科恩,2018)。事实上,这种增长的只有一年在此期间不发生是2005 - 2006,三个历史上最强烈的飓风卡特里娜,丽塔,威尔玛。这种趋势只会继续得到快速发展利率墨西哥湾沿岸地区的劳动力的比例在建筑行业是25%大于美国作为一个整体(科恩,2018)。

沿海飓风风险不仅是放大通过增加人口和基础设施建设,但加剧了气候变化,文献表明与大型飓风(类别3和更高版本)的频率和强度飓风的危害。虽然一个主要飓风每年不得登陆(例如,没有大型飓风登陆美国2006年和2016年之间),Levin和村上(2019)飓风分析数据从1900年到2015年,应用高分辨率建模人为全球变暖,并得出结论,这种变暖导致更高的频率主要飓风登陆主要飓风之间的持续时间较短。建模海平面上升和飓风气候学变化符合50%的概率超过数到本世纪末,Marsooli et al。(2021)量化这个频率增加减少平均复发间隔1000年一个历史性的事件,例如,280年在大西洋沿岸部分地区。在一个广泛的评论当前的建模2°C的人为全球变暖,克努森et al。(2020)还发现了强大的信心,飓风产生更大的风暴潮水平由于海平面上升,降水率更高,增加风强度和更大比例的4和5级飓风。沿海社区的风险增加通过城市化、人口迁移到沿海地区,由于气候变化放大飓风的频率和强度,这些社区的利益相关者必须有办法估计脆弱性和飓风登陆前制定行动计划。

从1960年代到2000年代,估计建筑物的方法易受飓风灾害依赖保险索赔或同一父本侦察数据,和脆弱性通常被认为是风速的函数(例如,伯克et al ., 1984;联邦应急管理局,1992;Mitsuta 1996)。皮塔饼et al . (2015)讨论这些方法的细节和脆弱性的演化建模。如由更健壮的框架Pinelli et al。(2004)住宅结构或广泛使用的联邦应急管理局(FEMA) Hazus多种灾害飓风模型(维克瑞et al ., 2006),维克瑞et al ., 2006 b),在此称为Hazus,超越拟合风速的单变量曲线损伤,利用脆弱性曲线由概率组件电阻和损害国家组成的一个或多个损坏组件在给定风速预测建筑物损害。Masoomi et al。(2019)遵循相关的策略概率风险强度和整体破坏概率组件和一个多种灾害的方法,考虑风速以及风暴潮深度,也是通过Hazus来解决。这两个框架还包括建模生成危害强度参数预测飓风或追算特定事件。这些方法都是取决于许多建筑原型为了获得概率风险加载阻力。建筑原型的目标是捕获在研究地区常见的建筑特征,但通常非常详细,指定建筑几何、材料、甚至紧固件尺寸。研究本文也试图预测飓风破坏建筑物,但依赖于机器学习(ML)算法分类损失,而不是计算脆弱。这种方法避免了特定的应用程序原型通过building-agnostic框架建立在数据,便于从侦察数据或县房地产估价师等公共资源。

虽然ML被应用到飓风灾害工程近年来,其应用预测建筑损害是有限的。几十年来,ML被应用到风力工程分支学科,如预测风暴强度和频率,结合地形和气动特性等风模型在计算流体动力学,以及代理模型来减少复杂的计算模型(的费用吴Snaiki, 2022)。最近练习,毫升是利用活性分类的建筑损坏影响飓风过后风暴,风暴后通过比较图像(例如,李et al ., 2019;卡尔顿和魏,2022;Kaur et al ., 2022)和实时检测的损伤通过社交媒体分析文章(例如,郝和王出版社,2019年;元,刘,2020年)。这些方法可以有价值的优先级应急响应分配在飓风后的凌晨。然而,随着反应方法进行损伤发生后,他们不为利益相关者提供支持飓风登陆前风险评估。

有几例ML损伤预测区域范围内。在案例研究后报损失比例(由接触结构性影响规范化)普查区级别的飓风玛丽亚,Szczyrba et al。(2020)利用随机森林(RF)回归算法严格受环境和社会因素表示的有限的预测性能R2值为0.29。Wendler-Bosco和尼科尔森(2021)也用毫升回归预测货币损失比率(比损失的价值在一个县,县的GDP)使用八个不同的ML算法训练72观察聚合热带气旋记录只使用风速和风力半径风暴和获得的特性R2值在0.5到-0.6之间。更少的ML预测退出应用程序构建特殊损害。这样一个例子,它利用风暴潮建模和工程理论、贝叶斯网络范Verseveld et al。(2015)68.4%,95.8%,4.4%,0%准确预测“影响”,“小”,“主要”,和“摧毁”损害分类,分别追算飓风桑迪(2012)。在另一个例子,比例累积logit模型Massarra et al。(2020)开发利用建筑和危险特性追算卡特里娜飓风(2005)破坏建筑物密西西比河沿岸,是84%准确的预测建立在或超过三种破坏状态。

毫升框架提出这是区别于之前的方法在几个关键属性。这是一个多种灾害的框架,认为风飓风和风暴潮洪水;building-agnostic,意义没有建筑原型的假设;这是一个积极的预测方法与活性中心损伤分类;它占工程因素,像Hazus fragility-based损伤模型的基础,通过加入许多相同的设计组件作为输入功能;考虑到地理空间数据。本文制定的ML框架损伤预测,识别最适用的ML算法,追算评价框架的飓风在多个数据,参数输入功能的研究,比较Hazus损失预测。

2问题陈述

这里的研究是正在进行的工作的一部分来预测破坏结构,特别是建筑,在飓风影响地区。损伤预测将促进毫升框架讨论,地图建筑功能(例如,材料和几何)、危害特性(风速和水泛滥),和地理空间特性(例如,距离和屏蔽从高峰危害强度在海岸线)直言伤害国家一栋楼一栋楼的基础上在区域产生影响。这种映射可以表示为情商。:

DS u = f x , y l u ( 1 )

DS是一栋建筑的分类预测损伤状态(例如,DS-0表示没有损坏), f ( x , y ) l 代表了ML算法的操作,而不是一个函数(例如,决策规则的RF算法)是适合一个训练集依据矩阵x收集观测数据的行和各自特性值(即。、建筑、危险和地理空间特性)列和一个向量y包含相关的损伤状态,u是一个向量收集测试样本的输入特性(即。建筑感兴趣的)。

损伤预测框架开发,以便它可以用于实时损伤预测飓风形式在大西洋盆地。作为热带气旋开始形式(例如,登陆前5天),风险参数建模的其他各种组织和研究人员可以使用与本研究的损伤预测模型作为风险输入功能。在同一时间,地理空间和建筑数据可以获得建筑在一个预期的影响区域。这里开发的ML框架将包含输入特性(飓风风险参数、地理空间和建筑特征)从各种来源预测建筑的破坏。这个积极的框架将允许区域和相关的损害一栋楼一栋楼的基础上预测转达风险和通知个人和社区决定疏散、准备和缓解。

3机器学习算法的概述

首先,手头的任务是分类之一,而不是回归,在其中输入特性映射到分类目标,或类,而不是连续的目标值。当选择一个毫升分类算法对于一个特定的数据集,一个典型的第一步是确定数据集的特性和目标之间的线性。通过绘制建筑,风险,和地理空间特性从样本侦察数据由美国国家科学基金会(NSF)资助结构极端事件侦察(引导)和其他来源(第四节详细描述)对观察到的损伤状态和检查目标类分布,这是确定的大多数特性并非线性相关。这些特性,表现出一些线性(如峰值风和年龄)包含许多局外人并不遵循线性趋势,并确定适当的非线性模型。接下来,可用侦察数据集被发现含有少于1000观察对于每一个飓风,并不需要进行神经网络,这在当前毫升中很常见应用程序与成千上万的观察。算法被认为是在这个工作和测试包括再邻居(资讯),决策树(DT),随机森林(RF),基于树的梯度提升分类器(GBC)。其中,射频,DTs的合奏,被选为进一步分析由于其鲁棒性高维数据和它的可解释性,在下面讨论这两种算法描述,以及良好的性能在第五节的结果。

3.1决策树

当创建一个毫升模型,可用数据的一个子集,称为训练集,用于火车或“适合”模型。剩下的数据被称为测试(有时验证),并保留确定最终模型的性能的评估模型的准确性在分类新数据的目标将是未知的。配件涉及到算法“学习”分类新数据,通过定义规则或参数和过程不同的算法。的DT,配件包括定义决策规则独立观察与不同类别根据过程在本节内,它遵循原来的DT制定Breiman et al。(1984),算法概述詹姆斯et al。(2013)和应用程序通过Pedregosa et al。(2011)Python编程语言。DT,数据的特征空间是受到递归二元分割,分割的结果簇观测同一目标类(Breiman et al ., 1984)。向量的特征空间只是一个组装包含所有观测数据集的特征值情商。:

x R n , = 1 , , l ( 2 )

在哪里x是一个向量的特征值的观察,代表之一l的观察,Rn是实数的坐标空间n尺寸为n特性。

图1描绘了一个局部DT从飓风侦察的样本数据和创建作为指南,参考下面的方程。在这个图中,节点(θ)是由盒顶部和编号、功能(j)和阈值 ( t j ) 给出了一个节点在每个节点的第二行,“基尼”是基尼杂质指数(H)的一个节点,“样本”是指观测的数量()中包含一个节点,“价值”是一个向量代表的人数观察属于三个不同的类(年代),“类”是指最常出现类节点在终端节点(DS)。没有损坏,非结构性破坏,和结构性破坏的三个类被认为是在这里。定义这些术语将在本节的理论概述。示例的部分决策树图1只作为一个示范,并不代表本研究模型的损伤预测。

图1
www.雷竞技rebatfrontiersin.org

图1。部分决策树飓风侦察数据的随机样本。

个体的特征空间被分割在特定值特性,创造所谓的节点,最后分组观察时没有进一步分裂称为终端节点或树叶(詹姆斯et al ., 2013)。DT是安装通过这种分裂分离观察训练数据的类。一个潜在的节点可以参数化的特性,j(一个n功能),用于将数据和阈值, t j ,或价值的分割,被定义为θ情商。

θ = j , t j ( 3 )

其中下标是指单个节点的DT。

看着节点0(最高的框)图1,这个节点使用一个阈值, t j ,0.599的特性,j,根据他们的洪水淹没深度分离观测深度值。

分裂的结果,在这样一个节点是一个收集的观察,其价值功能j低于阈值 t j 左边的节点和观测的值的集合j超过阈值后向右方程式。4,5

θ = x , y x , j t j , = 1 , , l ( 4 )
正确的 θ = \ θ ( 5 )

在哪里是一组观测(功能和目标)进入节点,(这个词x,y)代表一个观察(特征向量的值,x和目标值,y),x,j的值是特性j在观察, 的子集的特征值j低于 t j 和左边的节点传递, 正确的 值的子集j超过 t j 和右边的节点传递

保持与节点0图1,代表一组(x,y在节点0)对2044年的观察。 1346年观测的洪水深度低于0.599的阈值传递给节点1在左边,然后呢 正确的 698年观测的洪水深度超过0.599传递给节点的阈值754。

节点被选中,这样他们减少下游杂质左边和右边的节点。纯粹的观察(杂质等于零)是最理想的情况下,在所有观察组有相同的目标类。杂质增加当一组包含观察不同目标类。所选节点的参数,写成 θ * 选择,以减少总杂质,G使用的论点,下游的分裂情商。

θ = 参数 最小值 θ G , θ ( 6 )

在哪里G节点的总杂质吗基尼系数之和(中定义情商。)每一方的分裂加权观测的数量传递给每一方,根据7情商。

G , θ = H θ + 正确的 H 正确的 正确的 θ ( 7 )

在哪里观察进入节点的数量吗, 观察的数量吗 , 正确的 观察的数量吗 正确的 ,H基尼系数,典型的默认杂质测量DT算法。

每个节点的图1特性和阈值表示 θ * ,而不是任意的θ,因为只有满足选定的节点情商。DT输出所示。对节点0图1,是2044(这不同于在那只是一个数量的观察,而是一组包含观察的特性和目标)。节点1包含 H ( ) 分别为1346和0.468。类似地,节点754包含 正确的 H 正确的 ( 正确的 ) 分别为698和0.647。

基尼指数,H,是一个量化的价值类杂质在一组观测中包含一个节点,并与每一个类来表示节点的比例。低杂质艾滋病的正确预测,证明该节点的决策规则充分隔离一个特定的类。这个值计算在每个节点情商。

H = 1 年代 = 1 年代 p , 年代 2 ( 8 )

在哪里p,年代节点观测的比例属于类年代Eq。9

p , 年代 = 1 y 1 y = 年代 ( 9 )

在哪里1收益率指标函数的一个参数是正确的,否则为0。

p,年代所有的值年代在任何节点类可以收集到一个单独的向量,p,如Eq。(10)

p = p , 1 , p , 2 , , p , 年代 T ( 10 )

图1的一个例子,p,年代考虑到节点1和年代= 1 221观察属于类1(“价值”向量中第一个元素),除以= 1,346总观测节点。

这个过程重复的子集 ( θ * ) 正确的 ( θ * ) 包含两侧的分裂,直到创建了一个用户定义的最大数量的节点或者直到观察仍然少于所需的用户定义的数量要创建一个新节点。这两个停止标准可调hyperparameters,可调参数控制算法,可以调节modeler。一个观察的概率属于一个给定的目标类然后样本的比例相同的类包含在它的终端节点。观察确定的预测类的类以最大的概率Eq。11

DS = 年代 p , 年代 = 马克斯 p ( 11 )

在DS预测损伤状态的观察,然后呢p,年代是一个组件的向量p这是决定后情商。在观察的终端节点

后拟合训练数据的DT,新(测试)的数据排序通过DT中的节点的决策规则,确定和预测类Eq。12

DS u = f ( x , y ) D T u ( 12 )

在哪里 f ( x , y ) D T 代表DT的决策规则定义为它的所有节点的参数(θ*)和安装根据方程式。4到9,和输出的预测损伤状态测试后观察方程式。,11

与DT分类新数据的一个例子,考虑一个测试观察与洪水深度= 15000 = 0.25,距离海岸。还假设图1代表一个完整的DT代替部分。这个新数据观察将开始节点0和被传递给0.25的左节点1因为洪水深度小于阈值为0.599。接下来,从距离海岸15000超过11747 .981节点1阈值,观察375年将传递给正确的节点。假设这是一个完整的DT, 375将会是一个终端节点,节点和观察分为非结构性,由多数的训练观察在这个节点属于该类。DT是可取的的可解释性,只需检查特性和阈值在每个节点和辨别一个观察是否符合这些阈值。

3.2随机森林

创建的DTs的射频模型由一个如前一节所述。射频后制定的Breiman (2001)和应用程序在Pedregosa et al。(2011)射频合奏,每个DT是适合使用引导,或子集,训练观察和考虑只有一个子集的特征创建节点时DT。拟合底层DTs在接连的射频不同观察和decorrelating DTs的构建从不同的特性减少方差,或波动预测准确性给予不同的测试数据,从而使它强劲的高维度数据(Breiman 2001)。对于一个给定的测试观察,一个观察RF算法排序通过射频中的每个DT,和平均概率类预测DTs的输出创建一个最终预测观测概率最高的类。图2包含一个流程图描绘任意数量的合奏rDTs被从自己的观察并创建输入功能的子集,然后测试数据被输入到这些安装DTs虚线框所示。虽然不像一个DT可判断的,RF算法并不是一个所谓的“黑盒”因为那么一个可以检查一个观察的路径集合中的每个DT分析最终的预测是怎样制成的(詹姆斯et al ., 2013)。

图2
www.雷竞技rebatfrontiersin.org

图2。流程图的随机森林过程:训练数据用于模型适用所有步骤,然后新(测试)数据分类使用虚线框所示的步骤。

在本研究的背景,每个DT射频合奏地图观察的特性类概率情商。在终端节点。然后,从所有DTs平均使用获得的概率Eq。13

p ̄ = 1 R r = 1 R p , r ( 13 )

在哪里 p ̄ 是班级的平均概率向量,p,r通过计算情商。终端节点,,一个观察是排序的RDTs在射频合奏。

最后,一个观察的预测损伤状态可以作为最大的类平均概率Eq。14

DS = 年代 p ̄ 年代 = 马克斯 p ̄ ( 14 )

毕竟射频的DTs整体安装,一个新的(测试)观察可以通过排序分类通过每个DT和平均结果类概率,因此解决问题的声明情商。通过Eq。15

DS u = f x , y R F u ( 15 )

在哪里 f ( x , y ) R F 代表了DTs的射频合奏安装根据方程式。4到9和输出的预测损伤状态测试后观察方程式。,1314

3.3其他算法在本研究调查

3.3.1再邻居

除了射频和DT算法,然而,鉴于其适用性和GBC也选择调查的数据集大小、目标分类、和非线性预测机制。然而,算法相对简单的比其他非线性分类算法(Goldberger et al ., 2004)。以下是改编自算法概述Pedregosa et al。(2011)它提供了一个共同的当代应用资讯算法制定的修复、小霍奇斯(1951)奥特曼(1992)。然而,模型拟合的数据到一个简单的策划培训n维坐标系统n功能,如在图3对于一个任意两部剧情的例子。当训练数据绘制,目标类,显示为损伤状态,被称为所代表的象征图3。接下来,测试数据也同样策划,但没有一个已知的目标类。一个用户定义的数字,k、训练观察,或邻居,最近的测试观察预测类用于测试观察,图中标识。一个观察的预测类是由一个简单的投票的邻居的邻居的类或投票类加权的逆距离测试观察。选择的值k通常包括一个自动迭代拟合的资讯的过程k值从一个通过 n 作为一个经验法则,并选择的价值收益最大的准确性(Hassanat et al ., 2014)。一个权重方案也通常在类似的方式选择。代表损害国家在对目标类图3的问题陈述情商。是满意的Eq。16

DS u = f x , y 然而, u = 年代 k 年代 = 马克斯 k u , x , y ( 16 )

在哪里 f ( x , y ) 然而, ( u ) 代表资讯算法拟合的操作(x,y)对新数据进行分类u,k(u,x,y)是一个向量的长度年代年代= 1,…,年代类的数据,每个元素代表的计数k邻居属于每个类(未加权投票)的总和k邻居属于每个类乘以各自的距离的倒数u(distance-weighted投票)。

图3
www.雷竞技rebatfrontiersin.org

图3。的例子再邻居过程使用任意数据有两个特性和k = 5。

3.3.2梯度提高分类器

像一个射频,GBC组成的一个整体的DTs做出预测。与射频,GBC构建使用regresssion DTs而不是分类DTs和平均合奏的输出,而是GBC使用顺序DTs,每次DT模型适合最小化损失函数的合奏的输出(弗里德曼,2001)。以下概述改编自GBC配方弗里德曼(2001,2002)与应用程序特定的多层次(超过两个目标类数据)中GBCPedregosa et al。(2011)

在多层次GBC,单独的DTs的创建年代目标类数据在一个用户定义的数字,R实例,因此,整体包含完成年代×RDTs (Pedregosa et al ., 2011)。DT为每个类创建的训练观察被分配一个“真正的标签”(1)如果观察属于这类和0。每个DT然后安装估计这些真正的标签,导致标签的概率估计预测一个观察属于类的DT表示。一个向量的预测标签训练观察,pr,年代(x),确定通过Eq。9在观察各自的终端节点,在实例ry∈{0,1}各自的类,年代,代表的DT。

拟合以这种方式创建决策规则DTs的总损失减小到最低限度的整体预测相对于真正的标签在每一个实例Eq。17

h r , 年代 x , y = 参数 最小值 h l r , 年代 y 年代 , F r , 年代 x ( 17 )

在哪里hr,年代(x,y)代表的DT类年代在实例r,lr,年代的损失函数是类年代通过实例合奏r,y年代是一种含有观测向量的二进制类各自真正的标签年代,Fr,年代(x)是DT输出的总和pr,年代(x)类年代通过实例合奏r。同时提出了各种各样的可微的损失函数(弗里德曼,2001,2002年),Eq。18介绍了log-loss,是一个典型的多层次GBC损失函数(弗里德曼,2001;Pedregosa et al ., 2011)。

l r , 年代 y 年代 , F r , 年代 x = 1 l = 1 l y 年代 , 日志 F r , 年代 x + 1 y 年代 , 日志 1 F r , 年代 x ( 18 )

在哪里y年代,Fr,年代(x)向量的元素y年代Fr,年代(x为观察),分别代表值。有效地减少损失函数,Eq。17可以解决单个参数优化在哪里Eq。18是近似通过一阶泰勒近似(弗里德曼,2001)。

额外的DTs拟合训练数据,添加到集合到一个用户定义的数字,R实例被添加到合奏,导致年代独立的解决方案 F R , 年代 ( x ) = r = 1 R p r , 年代 ( x ) 。独立的解决方案结合到一个矩阵,FR(x)包含FR,年代(x在列。这个矩阵中每一行代表一个观察是标准化的通过将softmax函数,σ中定义的,Eq。19收益率的概率,观察属于每个类。

σ x = e F R x 年代 = 1 年代 e F R , 年代 x ( 19 )

预测类的观察被确定为对应的最大概率,或最高价值观察各自的softmax向量σ(x)。因此,问题的声明情商。可以解决上下文中的GBC通过引入新的数据(测试)到GBC合奏,排序的数据通过每个DT合奏根据他们的特征值,u,并确定最可能的类由将softmax功能,总结了Eq。20

DS u = f x , y GBC u = 年代 σ 年代 = 马克斯 σ u ( 20. )

在哪里 f ( x , y ) GBC 代表GBC合奏的决策规则安装(x,y),给出了预测损伤状态的测试观察类以下方程式。17到20。

3.4性能指标

准确性和平均f1-score被用作毫升的指标来评估性能模型,无处不在的指标的多层次毫升(例如,Jeni et al ., 2013;Grandini et al ., 2020;Tharwat 2020)。整体正确预测的准确性是一个简单的测量Eq。21

一个 c c u r 一个 c y = 正确的预测数量 总数的预测 ( 21 )

平均f1-score依赖两个组件——精度和召回,仔细看看多表现在一个或多个类可能比其他人更准确地预测。混淆矩阵,情节真实类标签对预测类标签是一个有用的视觉帮助解释这些指标。精度和回忆都是计算每个类单独使用真正的阳性数(TP),假阳性(FP),和假阴性(FN)混淆矩阵的示例中所示图4没有损害类。使用的例子没有伤害类,精度可以被描述为正确预测的损伤率的预测没有损伤。精度评估使用情商。,写任何类年代

P r e c 年代 o n 年代 = T P 年代 T P 年代 + F P 年代 ( 22 )

图4
www.雷竞技rebatfrontiersin.org

图4。样品混淆矩阵描述真阳性在虚线框和假阳性和假阴性在左列和行,分别扣除虚线框,在不破坏类。

仍然使用不破坏类作为一个例子,回忆被描述为正确预测损伤率的观测的真正的标签是没有伤害。回忆与计算Eq。23,写任何类。

R e c 一个 l l 年代 = T P 年代 T P 年代 + F N 年代 ( 23 )

f1-score结合了这两个指标作为调和平均数的精度和召回,并计算出每个类独立后Eq。24

f 1 - - - - - - 年代 c o r e 年代 = 2 × P r e c 年代 o n 年代 × R e c 一个 l l 年代 P r e c 年代 o n 年代 + R e c 一个 l l 年代 ( 24 )

平均f1-score, f 1 ̄ 用于度量在这项研究中,是所有类f1-scores的均值,计算Eq。25

f 1 ̄ = 1 年代 年代 = 1 年代 f 1 - - - - - - 年代 c o r e 年代 ( 25 )

4案例研究

这项研究的ML框架的目标是能够预测建筑破坏整个地区一栋楼一栋楼的基础上产生影响。这样一个模型的最终用户可以从一个房主人与区域的建筑一个地区或国家的实体数据,调查该地区的风险迫在眉睫的或假想的飓风。在这样一个模型可以用来预测之前,然而,它的性能需要对现有测试数据如追算。在这种情况下,输入特性包括建筑特点,风能和风险参数,和地理空间数据的建筑受到飓风影响哈维(2017),厄玛(2017),迈克尔(2018),和劳拉(2020)。每个观测的目标类的破坏状态观察每个飓风在侦察工作。这些输入和目标变量,列出他们的来源表1将在下面详细讨论。

表1
www.雷竞技rebatfrontiersin.org

表1。列表的所有特性被认为是在这个研究及其来源。

4.1构建数据

因为众所周知,建筑的不同年龄,材料和几何将执行不同当受到相同的加载,这些参数必须被认为是当预测建筑的破坏。最先进的模型如Hazus (联邦应急管理局,2021,b;维克瑞et al ., 2006),b)使用详细的建筑特点,实验负载电阻,当开发建筑原型,然后进行加载计算使用飓风强度参数。这是所指出的吴和Snaiki (2022)“机器学习丰富知识”,它试图捕捉这样的底层物理数据驱动毫升模型,协助毫升模型风工程的效率和准确性。尽管ML算法不能直接计算负载和阻力为构建组件,将这些建筑特征变量旨在维护工程因素在起作用,当建筑物被飓风破坏的危险。因此,侦察数据集包含建筑特点和他们同一父本损伤状态检查。飓风哈维,厄玛、迈克尔和劳拉选择可用性的基础上同意发表的大量数据集控制和岩土等极端事件侦察(吉尔)网络(Kijewski-Correa et al ., 2018 a;Kijewski-Correa et al ., 2018 b;Roueche et al ., 2018,2020年,2021年)。结合这些侦察数据集了3796年建筑,或观察,每个有11个构建输入特性和目标损伤状态。“主要”和“次要”是用于功能名称表1与墙面覆盖层,例如,“主”表明镀层上发现的大部分建筑,在“二次”是指附加包层材料的建筑,如果任何。

这里的目标是一个定性的损伤状态,可以在三个不同的类的观察:没有损坏,非结构性破坏,和结构性破坏。这些伤害是改编的维克瑞et al。(2006),用于原侦察数据Hazus,通过结合轻微和中度破坏状态进入非结构性破坏类,并结合到结构性破坏严重和破坏类。这些类描述符与损伤的类型是一致的与他们所示表2。如果任何列出的组件的建设经历了一个标准更高的损伤状态,较高的国家应用于建筑物的损坏。3796栋建筑物的位置和损伤状态的地图所示图5。建筑毫升含有足够的数据分析(见4.3.1节)也确定了这张地图。

表2
www.雷竞技rebatfrontiersin.org

表2。描述损伤状态的研究。

图5
www.雷竞技rebatfrontiersin.org

图5。建筑的地图数据集和损伤状态(一)概述地图合并数据集(B)飓风哈维在德克萨斯州(C)厄玛飓风在佛罗里达半岛(D)飓风迈克尔在佛罗里达狭长地带;和(E)飓风劳拉在路易斯安那州。

4.2风险和地理空间数据

飓风的危害特性得到每个观测侦察数据集。峰3 s风在10米高度是获得国家标准与技术研究院(NIST)和应用研究协会”(ARA) windfield地图数据(NIST ARA, 2017 a;b,2018年,2020年),最大风速值组成的网格从观察塔数据内插。自设计风速的变化在不同的飓风影响地区,通常根据美国土木工程师学会(第3期)最低设计负荷和相关建筑标准和其他结构,或第3期7,最高风速值不用作功能。相反,最大阵风值比较设计风速的邮政编码每个观察使用应用技术委员会(ATC, 2022)危险位置工具(2022)陈纯(2017)风险类别II设计风速。在2016年版的陈纯7和风险类别II并不适用于所有观测数据集,这些值被认为给区域基线预计风速和被用来创建输入特性设计超过数。

持续风速的时间也被假设为结构性能。获得这些值,风暴跟踪和风速半径的制表国家飓风中心(NHC) HURDAT2数据集(2013年Landsea和富兰克林)被用来获得每个观测时间经历了17.5 m / s (34 kt), 25.7 m / s (50 kt), 32.9米/秒(64 kt)持续风速。

捕获多种灾害对建筑性能的影响,洪水深度在每个观测的位置是确定从联邦应急管理局沿海为每个飓风冲击深度网格。这些网格是由联邦应急管理局及其子公司使用建模洪水深度(由减去地表数字高程模型从建模的水面高程)根据观察和验证峰值洪水深度观察站在影响区域(联邦应急管理局,2017;联邦应急管理局,2017 b,联邦应急管理局,2018)。除了洪水深度,三个地理空间特征影响风暴潮,风荷载对建筑物的影响被认为是。利用地理信息系统(GIS)软件,每个建筑海岸的距离计算的最小距离从建筑的足迹质心到最近的海岸线。屏蔽是指建筑位于一座建筑之间的数量和最近的海岸线点可以减轻风和飙升的影响。屏蔽然后扩展通过考虑每个建筑周边地区的建筑密度,进而影响风,飙升,风载的碎片的影响。联邦应急管理局(2022)美国结构建筑足迹是用来获得这三个地理空间特性。

4.3案例研究模型的选择

毫升的方法执行这项工作的目的是在Python中使用算法可以从Scikit-Learn库(Pedregosa et al ., 2011)。的ML算法研究的目的本研究,模型选择涉及到优化模型提供可用数据的最佳性能。本节中描述的方法一般不专门应用于这个案例研究。然而,他们给出的案例研究,因为他们会有所不同从一个案件到另一个根据和客观的数据。下面的内容将专注于射频模型的模型选择,然而每一个资讯,DT和GBC模型经历了同样的过程。

4.3.1预处理

毫升框架开始预处理数据,包括处理缺失数据和将数据转换为一种格式或范围,有利于算法。在这种情况下,观测与缺失的数据只是消除。这减少了可用的数据集到2555的观察。试图通过ML回归策略将丢失的数据,但是结果并没有提供足够的信心和缺失数据归责。关于数据转换,分类特性,比如包覆材料和屋顶形状第一次修改,以确保一致的标签(例如,“沥青瓦”和“带状疱疹、沥青”相同的名称),然后顺序值(即。,1、2、…)。自射频依赖于一组规则定义拟合其潜在的DTs,特征值的范围是微不足道,而不是附近算法如资讯或参数如神经网络算法。因此,任何扩展或进行归一化的特性。

预处理后,数据集分为训练和测试的子集。训练集用于适应模型和创建分类决策规则的观察。后的测试集是分开,直到模型拟合,然后用来评估模型的性能数据,它还没有“看到”。随机80%的预处理数据的子集(2044观察)被用于训练以分层的方式,保持同样比例的每个类的完整的数据集,剩下的20%(511)观察留出进行测试。

4.3.2模型调优

接下来,使用训练集进行特征选择,以确定哪些19特性作出积极贡献的预测精度。代替详尽的计算上开销很高的搜索所有组合的特性,向前和向后在舞台上进行选择。在阶梯的选择、功能按顺序添加(向前)或删除(向后)一次和选择,添加或删除功能提供的最大性能改进取决于准确性和f1-scores期间获得10倍交叉验证(CV),直到没有进一步改善。10倍的简历需要分裂的训练观察到10组,训练模型的组9日,评估在其余组,每组重复,直到被用来评估模型。然而,这些特征选择方法相比可以忽略不计的改进提供了模型使用所有可用的特性。此外,功能的重要性,测量基尼重要性或减少类杂质通过分割个体特性,计算确定一个最优的特征子集。使用特征值作为起点和工程判断重要性附加特征选择,六个特性被选为模型的输入:设计意向,距离海岸,年龄、淹没深度、建筑密度、屋顶结构。

训练集被用来选择hyperparameters RF模型。Hyperparameters针对这种射频模式是潜在的DTs的数量,功能用于构建每个DT的最大数量,并保证所需的最小数量的观察分裂DT。Hyperparameter调优进行了使用一个网格搜索Hyperparameter值的范围,在这一个射频模型是由可调Hyperparameter值的每个可能的组合,使用10倍的简历和评估。hyperparameters的结合提供了最好的平均表现为模型选择。所选hyperparameters 100 DTs,每个使用两个随机特性的六个选择功能,至少七观测所需分割。所有剩余hyperparameters可供使用的射频Scikit-Learn射频标识符的默认值1

5结果和变化的案例研究

5.1基线案例研究追算结果

在前一节中描述的射频调谐作为基准模型的追算客观案例研究。这个模型代表预测条件假设可用数据包括所有六个特性决定在模型选择最好的子集。

ML算法调优,适合训练数据,然后通过引入评估测试的数据集是伸出在模型调优和配件。的比较性能DT,射频,资讯和GBC模型提出了表3表3还比较了每个模型的计算时间,这包括hyperparameter调优,拟合优化模型和分类测试数据。计算时间表3获得使用8核多处理并行性创11日英特尔®在2.50 GHz™核心i7 - 11700。DT是至少计算昂贵的模型,但是一个DT被证明是过于简单获取测试数据和趋势产生最严重的准确性为61%。RF模型产生最好的准确性为76%,这是辅助,它包括许多DTs,减少方差,从而提供更好的估计看不见的数据测试。资讯,是附近算法,难以区分不同类别,这常常重叠特征空间的可用数据,给66%的准确率。最后,GBC也DTs的合奏,执行近以及射频模型在72%的准确率,但有一个较大的计算开销和hyperparameters考虑,优化没有被证明是过于敏感的利益增加性能。

表3
www.雷竞技rebatfrontiersin.org

表3。比较性能和计算时间(包括hyperparameter调优、配件、和测试)的分类算法被认为是在这个研究。

整体选择射频模型预测的准确度为76%,平均f1-score 0.70。的混淆矩阵图6描述了这些结果。这个规范化混淆矩阵对角线上的值代表各自的回忆成绩类,59.2%没有伤害,87.5%为非结构性损伤,54.7%的结构性破坏。较弱的性能没有损伤和结构损伤类是由类不平衡的数据集。在训练集和测试集,非结构性破坏类包含三倍样品的每个其他两类。这种不平衡的影响反映在较低的平均f1-score相比精度,并在第六节讨论。

图6
www.雷竞技rebatfrontiersin.org

图6。规范化的混淆矩阵为基线射频模型预测的测试数据。

5.2数据集大小的敏感性分析

由于侦察数据包含所需的详细级别为构建功能仅限于3796年观察,其中2555是可用的,灵敏度分析的样本量(观察)也进行了。记录了样本容量的影响崔和龚(2018),他发现多个毫升回归算法表现出指数增加预测精度作为样本大小的函数。Sordo和曾庆红(2005)同样证明了这种增加精度为3毫升分类算法,包括基于树的算法。评价样本大小对损伤状态的影响预测精度在这项研究中,数据从每个飓风顺序测试他们发生的顺序:哈维,厄玛,迈克尔,劳拉。每一步在这个序列预测研究中,所有的数据从飓风之前和包括这一步被打乱,80%的数据被用来适应模型,剩下的20%的数据被用来测试性能。结果所示图7描述一般性能指标的线性增加趋势,除了平均f1-score连续过程的第二步。的平均f1-score这一步,包含哈维和厄玛数据,导致从贫穷弱势的回忆没有损伤和结构损伤类型的47.9%和49.2%,分别比召回非结构性破坏类的82.5%。

图7
www.雷竞技rebatfrontiersin.org

图7。使用顺序添加飓风的随机森林模型的性能数据。

5.3参数输入功能的研究

在预测过程中,风险特征将由其他研究人员从建模和组织随着飓风开始发展。根据可用的分辨率建模飓风,洪水深度不得用于预测自扩散波和飙升的影响到土地需要高分辨率网格。从地理空间特性通常容易得到联邦应急管理局和其他建筑足迹数据集在美国几乎所有的建筑。构建数据,然而,这通常是来自县资产评估办公室,有时稀疏,根据研究区域的不同,有很大变化。考虑到这些潜在的预测的局限性,考虑可用性参数研究中描述生成不同的特性表4

表4
www.雷竞技rebatfrontiersin.org

表4。参数研究描述。

表4,射频表示基线射频本研究模型,训练六个特征选择在模型选择。输入特性被修改的“建筑”的情况下,指示为B -,代表不同的建筑功能的可用性。海湾县,佛罗里达州房地产评估师的一个例子是一个更健壮的构建数据源,清单等数据为每个建筑时代,框架类型、幕墙玻璃、屋顶覆盖,足迹的区域。相反,在农村社区的这些信息往往是不可用,与普拉克明,路易斯安那州,它列出了入住率类型。记住这种考虑,为构建数据被认为是两个级别的细节补充功能基线模型:B1可以作为海湾县列出的更详细的信息,佛罗里达州和B2认为建筑特性从一个视觉检查。视觉检查可能执行挨家挨户地检查研究的地区,或使用等新兴人工智能(AI)技术构建识别使用人工智能在大规模(抄网)收集这些信息通过处理街景影像与毫升(王et al ., 2021)。

其他模型被认为是建筑的理解数据可能不会像飓风迅速可用的方法,为农村地区特别提到。这些“风险”分析,指示为H -在测试矩阵,考虑建筑的功能和可用性的缺失只有风和洪水风险特性,没有地理空间特性。此外,独立的分析来比较设计风速超过数作为特征(如用于基线模型)使用最大阵风值相反,不考虑设计风速。

最后,预测飓风的情况建模网格分辨率是内陆洪水不能确定被认为是。“风”使用W -指定创建的模型只考虑wind-related特性,都有和没有附带的地理空间特性。

这些参数的研究,相对应的完整列表的功能用例描述作为输入。因为这些模型每个考虑少量的特性,一个穷举搜索的特征组合是可行的确定最佳特点为每个模型的子集。这一过程,称为最佳子集选择、评估模型的性能模型中使用的每个组合特性和结果训练只对组合收益率最好的准确性。

性能的各种参数模型以及功能的列表为每个给出的考虑和选择表5。正如预期的那样,B1模型,考虑所有基线射频特性加上额外的建筑特征,最终只用基线射频模型的特点和导致相同的性能。B2,排除基线射频的建筑特征,减少了5.3%的准确性。缺乏关键构建数据(年龄和屋顶结构)不平衡不考虑B2模型中有影响力的建筑特征。

表5
www.雷竞技rebatfrontiersin.org

表5。参数研究测试矩阵,“o”表示功能包含在模型选择的特性,和“x”表示特性被认为是但不选择模型。

虽然使用不同子集的危害特性,H2和H4,考虑地理空间特性,大大减少精度(6.6%)比H1和H3只使用危害特性和排除地理空间特性(精度减少10.5%)。同样在“风”模型,包括地理空间的特性,有利于W -模型。仍然没有包含更多有影响力的建筑特点和考虑风暴潮影响,这些模型表现最糟糕的是那些在研究中W1和W2精度下降11.8%和7.9%,分别。

5.4比较Hazus预测

联邦应急管理局的Hazus软件(联邦应急管理局,2021,联邦应急管理局,2021 b;维克瑞et al ., 2006),维克瑞et al ., 2006 b)是广泛应用于飓风灾害工程应用程序从飓风估计损失和经济损失。这个软件提供了一个全面的方法来建模,风暴潮洪水,飓风风成的碎片强度基于跟踪参数。由于Hazus的危害工程社区,是建立在工程理论和广泛的实验测试,它被选为一个新的基线,毫升破坏预测可以相比。此外,损伤状态预测的RF模型选择等,他们与Hazus损害国家这样的:没有损失相当于Hazus DS-0,非结构性损伤指Hazus DS-1 DS-2,和结构损伤包括Hazus DS-3 DS-4。

分析之前Hazus二级分析,使用飓风追踪观察和风能参数包含在软件包来确定风险强度,和由此产生的力量适用于用户定义的建筑包含数据建筑的位置、年龄、占用面积、居住类型和建筑类型(联邦应急管理局,2021)。Hazus计算负荷的建筑通过生成基于峰值阵风风速资料和聚合每普查区单个值(维克瑞et al ., 2006 b;联邦应急管理局,2021)。从应用构建然后确定损伤计算压力和冲击荷载到建筑模型代表入住率和建筑类型,反复检查损伤实验基础上派生组件的阻力值假设建立模型和重新计算负荷的建筑模型损伤(维克瑞et al ., 2006);联邦应急管理局,2021 b)。

用户定义的建筑投入Hazus分析相同的建筑从射频测试数据模型,它被分配用房,建筑类型根据Hazus文档中定义。每个飓风研究应用于Hazus输入建筑各自的飓风,和破坏状态的概率被返回。对于每一个建筑,破坏状态概率最高的是Hazus预测建筑,和Hazus损伤状态转换为案例研究毫升的损害国家计划框架。

评估这种比较的有效性,使用的风速峰值和最大持续风速Hazus估计压力作用于建筑组件比较值NIST / ARA毫升框架中使用的数据集。由于Hazus使用风速参数聚合在普查区级别,最高阵风的网格和NIST / ARA的持续风速数据平均在每个普查区。这两个参数之间很强的协议Hazus值和平均NIST / ARA所示的数据值图8。协议两个来源的指示R2值为0.97,平均绝对误差(MAE)的最大阵风0.96米/秒和一个R2值0.95和梅的最大持续风速为0.93米/秒。

图8
www.雷竞技rebatfrontiersin.org

图8(一)比较Hazus最大阵风和峰值阵风NIST / ARA数据用于毫升框架,聚合在普查区水平(B)比较Hazus最大持续风速与NIST / ARA数据用于毫升框架,聚合在普查区水平。

最后,时序预测方法用于RF模型也适用于Hazus观察趋势预测的性能应用到更多的场景。假设这个基于概率计算模型加载和抗性工程理论和应用程序不会影响顺序分析,因为它使用直接计算来确定损伤状态,而不是学习的趋势在射频模式。

对测试数据的建筑代表各自使用2级飓风Hazus总体精度分析与用户定义的建筑导致47%,平均f1-score 0.35。这些结果并不代表Hazus的预测能力作为一个整体,由于工具是用于决策支持在“州、当地部落,和领土”尺度(联邦应急管理局,2021)。相反,他们强调在建筑层面预测潜在的局限性Hazus,其他人则归因于偏差在建筑类型分布在用户定义的设施相对于聚合股票构建库存(埃尔南德斯,2020)。Hazus模型有强烈的倾向去分类建筑作为非结构性损伤(Hazus DS-1和DS-2)所示的混淆矩阵图9。从这个混淆矩阵,很明显,大部分的结构性破坏观测并被错误地归类为非结构性破坏,超过一半的没有损伤的观察。这些结果与一致萨勃拉曼尼亚et al。(2013)观察Hazus预测的屋顶损坏时(一个组件考虑将损伤状态)超过700000栋建筑从飓风艾克哈里斯县德州只有29.5%由于过度和under-predictions准确性。因为他们的研究只分析屋顶损坏,被认为是准确预测如果观察和预测屋顶损伤比例符合相同的损伤状态。此外,萨勃拉曼尼亚et al。(2013)同样采用一毫升合奏DTs的比较和测试时发现大大提高预测精度86% 90%的哈里斯县飓风艾克数据。

图9
www.雷竞技rebatfrontiersin.org

图9。规范化的混淆矩阵Hazus预测建筑的射频基线模型的测试数据。

采用时序预测方法在Hazus顺序执行每个飓风独立分析和结合的结果。表示在图10Hazus性能一般没有波动的观察。这是预期因为Hazus不依赖于额外的数据进行训练。相反,它的化合物概率性组件详细构建原型模型和概率加载阻力从风速参数来计算估计损失。鉴于Hazus模型的显式计算,预计没有太大差异应该发生在跨多个事件或建筑类型的准确性。

图10
www.雷竞技rebatfrontiersin.org

图10。Hazus性能相比,随机森林模型使用飓风顺序添加数据。

6的讨论

6.1射频模型性能

R2值通常在回归模型不能直接评估分类模型的预测准确率76%相比发达国家在这项研究中,每一种模型的相对性能提供了重要的见解损伤预测功能。回归模型的Szczyrba et al。(2020)预测飓风损失比率在普查区级别,和Wendler-Bosco和尼科尔森(2021)预测全国性损坏比率和总他们在整个影响能够捕获29%和50 - 60%的方差在观察损伤率(R2分别值)。RF模型本研究受益于相对更全面的功能不限于飓风参数,还认为是建筑的特性有助于load-resisting能力建设和地理空间特性影响负载减轻影响附近的建筑和崩溃的风险强度随着风暴内陆。的工作Szczyrba et al。(2020)尤其是,为未来的工作提供洞察力,当他们在他们的工作和引用社会和人口统计学特征高度相关损伤的程度在极端事件。这些特性并没有考虑在目前的研究中,但是可以证明是有益的。

的分类模型范Verseveld et al。(2015)州每个类的预测精度和使用不同的损伤评价方案,也没有提供一个直接比较的准确性RF模型在这项研究中,但是在类级别遵循类似的趋势。贝叶斯网络提供了68.4%和95.8%正确分类为“影响”和“小”损伤,但不到5%更高的损伤状态。他们的“影响”和“小”损害国家可以最密切而非结构性破坏类的研究,正确地预测在87.5%的病例(回忆)。性能更高的结构性破坏的损伤状态类类似的减弱,表现最差的类在这项研究中,54.7%的情况下正确地回忆道。在这种情况下,更好的性能的非结构性破坏类可能是由一个失衡对这类可用的数据。无损伤和结构损伤类每个包含只有三分之一的观察在非结构性破坏类的数量。因为更多的多数类观测可以提供更大的比例在终端节点,这种不平衡会导致更好的强化决策规则分类的多数类和少数类观测的影响较小。过采样和采样方法包括随机采样和不平衡学习合成少数过采样技术(打)和次死里逃生的欠采样算法(Lemaitre et al ., 2017)是采用人工平衡训练数据的类表示。这些方法在提高少数类性能有时有效,但以牺牲非结构性类性能的准确性和平均f1-scores减少。克服不平衡数据固有的挑战毫升从侦察数据,这些策略保证将来进一步的调查工作。

6.2侦察数据

样本量敏感性分析的结果表明改进的性能得到更多清晰的线性趋势观察更多的飓风。健壮的侦察任务后未来的飓风将是至关重要的在改善毫升的损伤预测能力模型,允许更好的学习,或更大的钢筋,每个损伤状态的相关因素。研究中的模型包含两个建筑功能为最佳性能:年龄和屋顶结构。这是两个功能不能从图像和可能不是可以从公共记录,根据自治区。剧烈的飓风侦察任务,收集这些数据的努力可以提高预测潜在的损害超过5%见B2的比较表5只考虑外部可见的建筑特点。而额外的建筑特征,为B1,没有提高预测准确性,它不应该假定这些特性是没有必要在侦察数据收集。相反,它是可能的,随着越来越多的数据被收集这些特性,其方差相对于损伤状态可能变得更加充分捕获,增加预测的影响。

6.3预测

即使有大量数据集包含在追算最优的特征子集模型,预测可能是有限的,这取决于可用数据的预期影响。如图所示的H和W -模型参数的研究,减少富达导致减少预测的准确性。预测的准确性,无论附加侦察数据进行训练,将依赖识别实现建筑功能的预期影响区域从飓风建模和有用的风险特性。关于建筑的特性,收集大量数据工作正在进行全国性来源如房地产估价师,尤其是在佛罗里达。正如5.3节中提到的,这些数据可能不包含所有必要的输入射频特性。一个解决方案是简单地使用可用的功能,演示了通过参数来减少精度的研究。另一种方法是调整输入和重构目标,使其更紧密地遵循Hazus聚合方法在区域层面上构建数据和损失预测。这需要操作的模型,但是是一个值得未来目标以适应缺乏构建数据或渴望建筑水平预测。

进一步提高预测能力,风险特性必须解决。地形模型存在,如在Hazus模型,可以用来获得表面粗糙度系数,wind-related结构工程的一个因素,可能提高相似的特性,比如建筑密度和距离海岸。进一步增强可能是由包含更广泛的水灾害。在的工作范Verseveld et al。(2015)波攻击、流速和冲刷深度被认为是除了洪水深度,这是唯一在本研究的射频surge-related特性。生成新特性来反映现有风险之间的相互作用特性,采用Massarra et al。(2020),还可以提供改进不同建模方法的结合影响某些特性。而附加功能并不总是带来更好的准确性,作为参数研究,证明这些特性解决已知的工程概念可以减少精度减少观察在构建数据是有限的。

7结论

小说毫升框架开发使用建筑,风险,和地理空间特性来预测建筑水平损害三个定性类:没有损坏,非结构性破坏,和结构性破坏。不同算法的性能包括资讯已被调查,DT,射频,GBC算法。RF模型,选择进一步分析根据其性能和可解释性,被用来追算一个样本的511栋建筑从飓风哈维,厄玛,迈克尔,劳拉准确率达到了76%。非结构性破坏类优于其他两类近30%由于可用数据的不平衡倾向于非结构性的观察。这可能纠正使用欠采样技术,但这种进步并没有被观察到。也表明,更多的观察从不同的飓风和影响区域产生一个线性趋势增加准确性。进行了参数研究,估计预测能力给出可用性不同的特征,这表明,构建数据所需的最佳性能,风和泛滥的数据都需要对风险特性,和地理空间特性大大有助于建筑水平预测的准确性。特别指出,最佳性能所需的建筑功能与年龄和结构材料——两个特性可能不会公开,并且不能补充通过目视检查或人工智能特征识别。最后,对同一组比较,预测建筑物使用联邦应急管理局的Hazus多种灾害飓风模型,取得了47%的准确率,但提供了洞察方法预测的变化迅速毫升框架中使用的可用数据。鉴于准确性相对较高的损伤预测模型研究中,这个模型作为一个重要的步骤在风险估计全社区的建筑级别从即将到来的飓风——资源越来越重要,因为气候变化和城市化趋势留下更多的建筑物和更多人的路径增加飓风的强度和频率。

数据可用性声明

最初的贡献提出了研究中都包含在本文/辅料,可以针对相应的作者进一步询问。

作者的贡献

所有作者研究的概念和设计。SK组织数据,进行了分析,并准备草稿的反馈和指导,密苏里州和密苏里州另外建议模型的改进方法和结果解释。所有作者批准出版的手稿。

资金

这项研究支持的国家海洋合作项目(项目授予n00014 - 21 - 1 - 2203)和佛罗里达大学的。这种支持。

确认

作者要感谢同意自然灾害工程研究基础设施(NHERI) DesignSafe哪些主机大部分数据用于这项研究和结构极端事件侦察(引导)网络提供关于侦察数据生产的细节。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

脚注

1https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

引用

奥特曼:美国(1992年)。介绍内核和加权非参数回归。点。统计学家46岁,175 - 185。doi: 10.2307 / 2685209

CrossRef全文|谷歌学术搜索

第3期(2017)。最小设计负荷和相关建筑标准和其他结构。点。Soc。文明。Eng。16日,7。doi: 10.1061 / 9780784414248

CrossRef全文|谷歌学术搜索

ATC (2022)。危险的位置

谷歌学术搜索

伯克,P。,l一个r年代en,T。鲁赫,c (1984)。飓风灾害评估的计算机系统。第一版。环绕。城市系统。9日,259 - 269。0198 - 9715 . doi: 10.1016 / (84) 90026 - 7

CrossRef全文|谷歌学术搜索

Breiman, L。,Fr我edman, J., Stone, C., and Olshen, R. (1984).分类和回归树。,FL:查普曼和大厅

谷歌学术搜索

Breiman, l (2001)。随机森林。马赫。学习。45,5-32。doi: 10.1023 /: 1010933404324

CrossRef全文|谷歌学术搜索

卡尔顿,L。,Wei, Z. (2022). Using artificial neural network models to assess hurricane damage through transfer learning.达成。科学。12日,1466年。doi: 10.3390 / app12031466

CrossRef全文|谷歌学术搜索

科恩,d . t . (2018)。海岸线县人口继续增长。Suitland:美国人口普查局

谷歌学术搜索

崔,Z。,Gong, G. (2018). The effect of machine learning regression algorithms and sample size on individualized behavioral prediction with functional connectivity features.科学杂志178年,622 - 637。doi: 10.1016 / j.neuroimage.2018.06.001

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

联邦应急管理局(1992)。建筑性能:安德鲁飓风在佛罗里达。华盛顿特区:联邦应急管理局

谷歌学术搜索

联邦应急管理局(2021)。4.2 Hazus-mh飓风模型技术手册。华盛顿特区:联邦应急管理局

谷歌学术搜索

联邦应急管理局(2021 b)。Hazus-mh 4.2库存技术手册。华盛顿特区:联邦应急管理局

谷歌学术搜索

联邦应急管理局(2017)。飓风哈维联邦应急管理局沿海深度网格。华盛顿特区:联邦应急管理局

谷歌学术搜索

联邦应急管理局(2017 b)。厄玛飓风联邦应急管理局沿海深度网格。华盛顿特区:联邦应急管理局

谷歌学术搜索

联邦应急管理局(2018)。飓风迈克尔初步联邦应急管理局沿海深度网格。华盛顿特区:联邦应急管理局

谷歌学术搜索

联邦应急管理局(2022)。美国的结构。华盛顿特区:联邦应急管理局

谷歌学术搜索

修复,E。,Hodges, J. (1951).判别分析:非参数歧视:一致性属性。报告4号。德州:美国空军学院的航空MedicineRandolph字段。doi: 10.2307 / 1403797

CrossRef全文|谷歌学术搜索

Friedman, j . h (2001)。贪婪的函数近似:梯度增加机器。安。统计数据,1189 - 1232。

CrossRef全文|谷歌学术搜索

Friedman, j . h (2002)。随机梯度增加。第一版。统计数据分析38岁,367 - 378。doi: 10.1016 / s0167 - 9473 (01) 00065 - 2

CrossRef全文|谷歌学术搜索

不J。,H我nton,G。E., Roweis, S., and Salakhutdinov, R. R. (2004). Neighbourhood components analysis.放置神经Inf。过程。系统。17所示。

谷歌学术搜索

Grandini, M。Bagli E。,Visani, G. (2020). Metrics for multi-class classification: An overview.arXiv预印本arXiv: 2008.05756

谷歌学术搜索

,H。,Wang, Y. (2019). “Hurricane damage assessment with multi-, crowd-sourced image data: A case study of hurricane irma in the city of miami,” in学报》第17届国际会议上对危机应对和管理信息系统(西班牙瓦伦西亚:ISCRAM),19 - 22日。

谷歌学术搜索

Hassanat, a, B。Abbadi, m。,一个lt一个r一个wneh, G. A., and Alhasanat, A. A. (2014).解决问题的k参数资讯分类器使用一个集成学习的方法。doi: 10.48550 / ARXIV.1409.0919

CrossRef全文|谷歌学术搜索

埃尔南德斯:(2020)。飓风损失的分析模型,验证廷德尔空军基地的空军和应用程序。俄亥俄州赖特-帕特森空军基地;空军理工学院的

谷歌学术搜索

詹姆斯·G。,Witten, D., Hastie, T., and Tibshirani, R. (2013).介绍了统计学习,112年。施普林格

谷歌学术搜索

Jeni,洛杉矶。,Cohn, J. F., and De La Torre, F. (2013). “Facing imbalanced data–recommendations for the use of performance metrics,” in2013年Humaine协会会议上情感计算和智能交互,2015年1月6日。(IEEE),245 - 251。doi: 10.1109 / ACII.2013.47

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

考尔,S。,Gupt一个,年代。,年代我ngh, S., Koundal, D., and Zaguia, A. (2022). Convolutional neural network based hurricane damage detection using satellite images.柔软的第一版。26日,7831 - 7845。doi: 10.1007 / s00500 - 022 - 06805 - 6

CrossRef全文|谷歌学术搜索

Kijewski-Correa, T。锣,J。,Womble, A., Kennedy, A., Cai, S. C., Cleary, J., et al. (2018a). Hurricane harvey (Texas) supplement – collaborative research: Geotechnical extreme events reconnaissance (geer) association: Turning disaster into knowledge. doi:10.17603/DS2Q38J

CrossRef全文|谷歌学术搜索

Kijewski-Correa, T。Roueche D。,Pinelli, j。Prevatt D。Zisis,我。,Gurley,K., et al. (2018b). Rapid: A coordinated structural engineering response to hurricane irma.佛罗里达。doi: 10.17603 / DS2TX0C

CrossRef全文|谷歌学术搜索

克努森,T。,Camargo, S. J., Chan, J. C. L., Emanuel, K., Ho, C.-H., Kossin, J., et al. (2020). Tropical cyclones and climate change assessment: Part II: Projected response to anthropogenic warming.公牛。点。Meteorol。Soc。101年,E303-E322。doi: 10.1175 / bams - d - 18 - 0194.1

CrossRef全文|谷歌学术搜索

Landsea, c W。,Fr一个nkl在,J. L. (2013). Atlantic hurricane database uncertainty and presentation of a new database format.星期一,天气牧师。141年,3576 - 3592。doi: 10.1175 / mwr - d - 12 - 00254.1

CrossRef全文|谷歌学术搜索

Lemaitre G。,Nogueira, F., and Aridas, C. K. (2017). Imbalanced-learn: A python toolbox to tackle the curse of imbalanced datasets in machine learning.j·马赫。学习。Res。18日,1 - 5。

谷歌学术搜索

莱文,e . L。,米ur一个k一个米我,H。(2019). Impact of anthropogenic climate change on United States major hurricane landfall frequency.j . 3月科学。Eng。7日,135年。doi: 10.3390 / jmse7050135

CrossRef全文|谷歌学术搜索

李,Y。,Hu,W., Dong, H., and Zhang, X. (2019). Building damage detection from post-event aerial imagery using single shot multibox detector.达成。科学。9日,1128年。doi: 10.3390 / app9061128

CrossRef全文|谷歌学术搜索

Marsooli, R。Jamous, M。,米我ller,J. K. (2021). Climate change impacts on wind waves generated by major tropical cyclones off the coast of New Jersey, USA.前面。建立环境。7所示。doi: 10.3389 / fbuil.2021.774084

CrossRef全文|谷歌学术搜索

Masoomi, H。,van de Lindt, J. W., Ameri, M. R., Do, T. Q., and Webb, B. M. (2019). Combined wind-wave-surge hurricane-induced damage prediction for buildings.j . Struct。Eng。(n . Y . n Y)。145年。doi: 10.1061 / st.1943 - 541 x.0002241(第3期)

CrossRef全文|谷歌学术搜索

Massarra, C . C。,Fr我edland, C. J., Marx, B. D., and Dietrich, J. C. (2020). Multihazard hurricane fragility model for wood structure homes considering hazard parameters and building attributes interaction.前面。建立环境。6。doi: 10.3389 / fbuil.2020.00147

CrossRef全文|谷歌学术搜索

Mitsuta, y (1996)。“台风风力损害的预测方法土木专业会议Proc。概率和结构可靠性(伍斯特,970年。-973年。

谷歌学术搜索

Mohleji, S。,P我elke,R。(2014). Reconciliation of trends in global and regional economic losses from weather events: 1980-2008.牧师Nat。危害。15日,04014009。doi: 10.1061 /(第3期)nh.1527 - 6996.0000141

CrossRef全文|谷歌学术搜索

NIST和ARA (2017 a)。飓风哈维快速反应windfield估计。阿尔伯克基纳米:应用研究协会

谷歌学术搜索

NIST和ARA (2017 b)。厄玛飓风快速反应windfield估计。阿尔伯克基纳米:应用研究协会

谷歌学术搜索

NIST和ARA (2020)。飓风劳拉快速反应windfield估计。阿尔伯克基纳米:应用研究协会

谷歌学术搜索

NIST和ARA (2018)。michael快速反应windfield估计飓风。阿尔伯克基纳米:应用研究协会

谷歌学术搜索

Pedregosa F。,Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., et al. (2011). Scikit-learn: Machine learning in Python.j·马赫。学习。Res。12日,2825 - 2830。

谷歌学术搜索

Pinelli, j。Simiu E。,Gurley,K., Subramanian, C., Zhang, L., Cope, A., et al. (2004). Hurricane damage prediction model for residential structures.j . Struct。Eng。(n . Y . n Y)。130年,1685 - 1691。doi: 10.1061 /(第3期)0733 - 9445 (2004)130:11 (1685)

CrossRef全文|谷歌学术搜索

皮塔饼,G。,Pinelli, j。•格利,K。,米我tr一个n我- - - - - -Re我年代er,J. (2015). State of the art of hurricane vulnerability estimation methods: A review.牧师Nat。危害。16。doi: 10.1061 /(第3期)nh.1527 - 6996.0000153

CrossRef全文|谷歌学术搜索

Roueche, d . B。,lo米b一个rdo, F. T., Krupar, Richard J., and Smith, D. J. (2018).易腐烂的风力数据集合,surge-induced居住建筑损坏在飓风哈维。doi: 10.17603 / DS2DX22

CrossRef全文|谷歌学术搜索

Roueche D。,Kameshwar, S., Vorce, M., Kijewski-Correa, T., Marshall, J., Mashrur, N., et al. (2021).现场评估结构团队:1,fast 2。fast-3。doi: 10.17603 / DS2-DHA4-G845

CrossRef全文|谷歌学术搜索

Roueche D。,Kijewski-Correa, T。佳,J。•格利,K。,米一个r年代h一个ll,J., Pinelli, J.-P., et al. (2020).引导领域评估结构团队(快)。doi: 10.17603 / DS2-5AEJ-E227

CrossRef全文|谷歌学术搜索

Sordo, M。,Zeng, Q. (2005). On sample size and classification accuracy: A performance comparison.医学杂志。地中海。数据分析,193 - 201。doi: 10.1007 / 11573067 _20

CrossRef全文|谷歌学术搜索

萨勃拉曼尼亚,D。萨拉查,J。,Duen一个年代- - - - - -Osorio, L., and Stein, R. (2013). Constructing and validating geographically refined hazus-mh4 hurricane wind risk models: A machine learning approach.放置Hurric。Eng。学习。我们的过去,1056 - 1066。

CrossRef全文|谷歌学术搜索

Szczyrba, L。张,Y。,P一个米ukcu,D。,和Eroglu, D. I. (2020). “A machine learning method to quantify the role of vulnerability in hurricane damage,” inISCRAM 2020会议proceedings-17th国际会议上对危机应对和管理信息系统

谷歌学术搜索

Tharwat, a (2020)。分类评价方法。达成。第一版。正无穷。17日,168 - 192。doi: 10.1016 / j.aci.2018.08.003

CrossRef全文|谷歌学术搜索

范Verseveld, h·c·W。范Dongeren, a。R。、植物:G。贼鸥,w·S。,den Heijer, C. (2015). Modelling multi-hazard hurricane damages on an urbanized coast with a bayesian network approach.海岸。Eng。103年,1 - 14。doi: 10.1016 / j.coastaleng.2015.05.006

CrossRef全文|谷歌学术搜索

维克瑞,p . J。林,J。,年代kerlj,P。F。, Twisdale, L. A., and Huang, K. (2006a). Hazus-mh hurricane model methodology. i: Hurricane hazard, terrain, and wind load modeling.牧师Nat。危害。7,82 - 93。doi: 10.1061 /(第3期)1527 - 6988 (2006)2 (82)

CrossRef全文|谷歌学术搜索

维克瑞,p . J。,年代kerlj,P。F。, Lin, J., Twisdale, L. A., Young, M. A., and Lavelle, F. M. (2006b). HAZUS-MH hurricane model methodology. II: Damage and loss estimation.牧师Nat。危害。7,94 - 103。doi: 10.1061 /(第3期)1527 - 6988 (2006)2 (94)

CrossRef全文|谷歌学术搜索

王,C。,Horn一个uer,年代。,Cetiner, B., Guo, Y., McKenna, F., Yu, Q., et al. (2021).NHERI-SimCenter /抄网:释放v2。doi: 10.5281 / zenodo.4570554

CrossRef全文|谷歌学术搜索

Weinkle, J。,l一个ndsea, C., Collins, D., Musulin, R., Crompton, R. P., Klotzbach, P. J., et al. (2018). Normalized hurricane damage in the continental United States 1900–2017.Nat。维持。1,808 - 813。doi: 10.1038 / s41893 - 018 - 0165 - 2

CrossRef全文|谷歌学术搜索

Wendler-Bosco, V。,N我chol年代on,C. (2021). Modeling the economic impact of incoming tropical cyclones using machine learning.Nat。危害(Dordr)。110年,487 - 518。doi: 10.1007 / s11069 - 021 - 04955 - 8

CrossRef全文|谷歌学术搜索

吴,T。,年代n一个我k我,R。(2022). Applications of machine learning to wind engineering.前面。建立环境。8。doi: 10.3389 / fbuil.2022.811460

CrossRef全文|谷歌学术搜索

元,F。,l我u,R。(2020). Mining social media data for rapid damage assessment during hurricane matthew: Feasibility study.j .第一版。文明。Eng。34。doi: 10.1061 /(第3期)cp.1943 - 5487.0000877

CrossRef全文|谷歌学术搜索

关键词:机器学习、社区韧性损伤预测,预报,多种灾害,侦察、飓风

引用:Klepac年代,Subgranon和Olabarrieta M(2022)的案例研究和参数分析预测hurricane-induced建筑损坏使用数据驱动的机器学习方法。前面。建立环境。8:1015804。doi: 10.3389 / fbuil.2022.1015804

收到:2022年8月10日;接受:2022年10月19日;
发表:2022年11月09年。

编辑:

Nikolaos尼基塔英国利兹大学

审核:

高峰贾美国科罗拉多州立大学
奥尔加Markogiannaki西方大学马其顿,希腊
Kehinde Alawode美国佛罗里达国际大学

版权©2022 Klepac Subgranon Olabarrieta。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:Arthriya Subgranon,arthriya@ufl.edu

下载