AIDA:一个活跃的推理设计代理音频处理算法
- 1BIASlab,电气工程系,埃因霍温科技大学,荷兰埃因霍温
- 2嵌套的思想解决方案、利物浦、曼联Kingom
- 3GN听证会上,荷兰埃因霍温
在本文中,我们目前活跃的推理设计代理(AIDA),这是一个活跃的推理代理迭代设计个性化的音频处理算法通过坐落与人类交互客户端。AIDA的目标应用程序是提出现场最有趣的替代值的调优参数助听器(HA)算法,每当一个HA客户不满意他们的性能。AIDA解释寻找“最有趣的替代”作为一个优化问题(声学)环境敏感贝叶斯试验设计。在计算方面,AIDA积极推理实现代理标准试验设计预期的自由能。这种类型的架构是灵感来自neuro-economic模型在大脑和高效(贝叶斯)试验设计意味着AIDA包括声信号生成概率模型和用户响应。我们提出一个新颖的声信号生成模型的时变自回归滤波器和一个用户响应模型基于高斯过程分类器。实现完整的AIDA代理生成的因子图模型和所有任务(参数学习,声环境分类、试验设计等)是通过变分消息传递实现的因素图。所有验证和验证实验和演示都可以免费在我们的GitHub库访问。
1介绍
助听器(HA)通常配备专门的降噪算法。这些算法是由团队的工程师的目标是创建一个适合任何用户在任何情况下的最优算法。采取一刀切的方法哈算法设计会导致两个问题在当今助听器行业盛行。首先,所有可能的声学建模环境中是不可行的。HA用户的日常生活是多种多样的,不同的环境中他们穿越更是如此。给定不同的声学环境,单一的静态HA算法不可能占所有eventualities-even没有考虑公顷本身特定的限制,如有限的计算能力和允许处理延迟(凯特和Arehart, 2005)。其次,听力损失是非常个人和用户之间也有明显的差异。每公顷用户因此需要自己的,单独调HA算法,弥补了他们独特的听力损失(尼尔森et al ., 2015;Laar van de和德弗里斯,2016;Alamdari et al ., 2020)和满足他们的个人偏好参数设置(Reddy et al ., 2017)。考虑到现在通常由多个相互关联的数字信号处理单元与许多综合参数,个性化的任务参数的算法需要探索一个高维搜索空间,这往往不会产生一个明确的物理解释。当前最普遍的方法个性化要求HA用户身体的听力学家前往手动曲调所有HA参数的一个子集。这是一个繁重的活动不能保证收益率为HA用户更好的聆听体验。
从这两个问题,很明显,我们需要朝着助听器算法设计的新方法,赋予用户。理想情况下,用户应该控制自己的HA算法和应该能够更改和更新它们而不是依靠团队的工程师与设计周期长、操作与用户的生活经历。
问题就变成了,如何将HA算法设计从工程师到用户的手中?而天真的实现,它允许调优参数与滑块,例如,开发智能手机是微不足道的,甚至少量的可调参数产生一个大的高维搜索空间,HA用户需要学习如何解决这些问题。这使得大量用户的负担,让他们成为自己的训练有素的听力学家。显然,这不是一个简单的任务,这种方法是唯一可行的小的一组参数,进行明确的物理解释。相反,我们希望支持用户提供智能的代理人提出新的参数试验。在此设置,用户只是负责演员(正面或负面)评估当前的设置。基于这些评价,代理将自动遍历搜索空间的目的,提出满足用户在当前参数值在尽可能少的试验环境条件。
设计一个智能代理,学会有效的导航参数空间不是微不足道的。在解决方案的方法在这篇文章中,我们依靠概率建模方法的灵感来自于自由能原理(聚全氟乙丙烯)(Friston et al ., 2006)。聚全氟乙丙烯是一种框架最初设计来解释生物的各种计算,智能代理(例如人类的大脑)可能会执行。近年来合成的聚全氟乙丙烯应用到设计代理(Millidge 2019;Laar van de和德弗里斯,2019;van de Laar et al ., 2019;Tschantz et al ., 2020)。FEP-based代理的一个标志性特征是,他们表现出动态之间的权衡勘探开发(Friston et al ., 2015;Da Costa et al ., 2020;Friston k . et al ., 2021),这是一个非常理想的财产当学习导航HA参数空间。具体地说,聚全氟乙丙烯提出智能代理应该建模为概率模型。这些类型的模型不仅屈服点估计的变量,而且获取的不确定性通过建模完整的后验概率分布。此外,用户评价和行为可以被简单地扩展自然结合概率模型。采用基于模型的方法还允许参数少于替代数据驱动的解决方案,我们可以将领域知识,使其更适合计算约束助听器设备。新奇的方法是植根于这一事实提出整个系统框架作为概率生成模型,我们可以执行(积极)推理通过自由能最小化(预期)。
在本文中,我们目前的阿依达,1一个活跃的推理设计代理位于发展的上下文相关的音频处理算法,为用户提供自己的可控音频处理算法。这种方法体现了一个FEP-based代理运营与声学模型,积极学习最佳的上下文相关的调优参数设置。后正式指定的问题和解决方案方法在第二节我们做出以下贡献:
(1)我们开发一个模块化的概率模型,体现了,(声波)scene-dependent,和个性化的设计其相应的助听器在3.1节算法。
(2)我们开发一个预期的自由能源代理(AIDA) 3.2节,建议调优参数设置的平衡方面寻求更多的信息用户的偏好(探究的代理行为)与寻求优化用户的满意度利用之前学的偏好(剥削代理行为)。
(3)推理和AIDA阐述声学模型,在第四节及其操作通过在第五节代表实验分别验证。此外,所有的元素都共同验证通过5.4节的演示应用程序。
我们故意推迟了更彻底的检查,以确定相关工作第六节我们认为更相关的介绍后我们的解决方案的方法。最后,第七节讨论了我们的方法的新颖性和局限性和第8部分总结本文。
2问题的陈述和建议的解决方案的方法
2.1自动化助听器调试优化
在本文中,我们考虑的问题选择调优参数的值u助听器的算法处理一个声音输入信号x输出信号y。在图1,我们素描一个自动化文中针对这个问题的方法。假设我们获得一个通用的“信号质量”模型,利率一个HA输出信号的质量y=f(x,u),HA输入的函数x和参数u通过评级r(x,u)≜r(y)。如果我们运行这个系统一套代表输入信号
不幸的是,在商业实践中,这种优化方法并不总是导致满意的HA的性能,因为两个原因。首先,信号质量模型在文献中一直在训练有素的大型数据库的偏好评级从许多用户,因此只有模型平均公顷客户机而不是任何特定的客户端(里克斯et al ., 2001;凯特和Arehart, 2010;塔阿尔et al ., 2011;Beerends et al ., 2013;海恩斯et al ., 2015;杭州中能汽轮动力有限公司,2020年)。其次,平均优化方法在大量的不同的输入信号,所以它不会处理声上下文相关的客户的偏好。通过声学环境,我们考虑信号的属性取决于环境条件如被里面,外面,在车里或者在购物中心。一般来说,客户偏好HA调优参数都是高度个人和上下文相关的。因此,有必要开发一个个性化,为优化HA参数上下文敏感的控制器u。
2.2位于助听器与用户调优是圈内人
在本文中,我们将开发一个个性化的、上下文感知设计代理,基于所示的体系结构图2。相比图1,外界(而不是数据库)产生一个输入信号x位于条件下加工的助听器算法产生一个输出信号y。一个特定的人类助听器端听信号y并邀请将在任何时候二进制评估r∈{0,1}关于当前助听器算法的性能,在1和0对应用户满意和不满意,分别。环境敏感试验HA AIDA提供的调优参数。而不是离线设计过程,整个系统设计位置条件下不断。HA设备本身房子一个定制的助听器算法,基于状态推理生成声学模型。声学模型包含两个子模型:1)源动力学模型和2)上下文动力学模型。
图2。提出的原理概述包含AIDA坐落HA设计循环。一个输入信号x进入使用助听器,推断出用户的上下文c。基于这种背景下和以前的用户评价,AIDA提出一套新的参数u助听器的算法。输入信号的基础上,提出了参数和当前上下文,输出y助听器的决定,与上下文一起使用助听器的算法。的参数u由AIDA积极优化,根据上下文推断c从输入信号x和评估r从用户的循环。所有单个子系统的代表部分在第三节描述概率生成模型,相应的算法遵循执行概率推理在这些模型如第四节所述。
声学模型中的推理是基于观察到的信号x和产量的输出y和上下文c。基于这种背景下信号c和以前的用户评价rAIDA将积极提出新的参数试验u的目的,让用户满意。从技术上讲,AIDA的目标是期望获得更少的负面评估在未来,相对于不做参数适应性,详情参见3.2节。
AIDA的设计是重要的。例如,因为先天没有HA评级为任何特定用户的个性化模型,AIDA必须建立这样一个模型动态从上下文c和用户评价r。位于条件下系统运行以来,我们要实施尽可能少的负担最终用户。因此,大多数用户只会偶尔投一个个性化的评价这复杂学习哈评级模型。
使混凝土这渴望非常轻量级的交互,我们现在素描如何设想一个典型的阿依达和HA客户机之间的相互作用。假设HA客户机是在跟一个朋友在一家餐厅。感兴趣的信号,在这种情况下,是朋友的语音信号在干扰信号环境噪声信号吞吞吐吐。HA算法试图独立的输入信号x言论和噪声源为它的组成成分,然后应用收益u每个源组件和总结这些加权源信号输出y。如果哈客户满意她的表现哈,她不会把任何评估。毕竟,她是在交谈,也没有必要改变HA的行为。但是,如果她不能理解对话伙伴,客户端可能秘密挖掘她的手表或使另一个手势表明她不满意当前的HA设置。作为回应,阿依达,可能实现为一个smartwatch应用程序,将立刻通过发送一个调优参数更新回复u助听器算法为了解决客户端目前的听力问题。因为客户的偏好是上下文相关的,AIDA需要将声从HA输入上下文的信息x。作为一个例子,HA用户可能离开饭店外面散步。在外面散步了不同类型的背景噪音,因此需要不同的参数设置。
至关重要的是,我们希望HA客户能够调整他们的助听器不中断正在进行的活动。因此,我们将不要求客户端与智能手机交互视觉注意力集中在应用最多,我们想要的客户端应用开发或使一个简单的手势,不画任何注意力从正在进行的对话。第二个标准是,我们不希望对话伙伴注意到客户端与代理进行交互。客户机实际上可能的情况下(例如,一个商务会议)是不适当的证明她的重点转移到调整她的助听器。换句话说,必须非常轻量级的交互和秘密。第三个标准是,我们希望代理从尽可能少的评估。注意,如果哈10调优参数和5个有趣的值(非常低,低,中,高,非常高的)每一个参数,然后是510(约1000万)参数设置。我们不希望客户端订婚在无限循环的不赞成新HA的提议,因为这将导致挫折和分散注意力的持续对话。显然,这意味着每个更新HA参数不能随机选择:我们希望代理提出最有趣的调优参数的值,根据所有观察到的过去未来信息和特定的目标标准公顷的行为。在4.2节中,我们将在这个上下文量化最有趣的是什么意思。
简而言之,本文的目标是设计一个智能代理,支持用户驱动的位置设计一个个性化的音频处理算法通过一个非常轻量级的交互协议。
为了完成这项任务,我们将从人类大脑的方式汲取灵感设计算法(如演讲和对象识别,骑自行车,等等)完全通过环境交互。具体来说,我们基地AIDA在活动的设计推理(AIF)框架。来自计算神经科学领域,如果提出把大脑看作是感官输入预测引擎模型。正式,如果完成通过指定输入数据的概率生成模型。执行近似贝叶斯推理然后在这个模型中通过最小化自由能构成一个统一的数据处理和学习的过程。选择调优参数试验,如果代理预测预期的自由能在不久的将来,给定一个特定的参数设置的选择。如果提供了一个统一的AIDA的所有组件的设计方法。HA系统的设计是由一个AIF-based设计代理需要解决以下任务:
(1)分类的声学环境。
(2)选择声哈调优参数上下文相关的试验。
(3)执行HA信号处理算法(即由试验控制参数)。
任务1(上下文分类)包括确定最可能的电流声环境。基于动态上下文模型(3.1.2节中描述),我们推断出最可能的声学环境如4.1节所述。
任务2(试验设计)包括提出替代哈调优参数的设置。章节3.2,4.2描述的用户响应模型和执行AIDA的审判选拔程序基于预期的自由能最小化,分别。
最后,task 3(助听器算法执行)的担忧进行变分自由能最小化对状态变量的生成概率模型的声信号。在3.1节,我们描述生成声学模型底层HA算法和4.3节描述了推断HA算法本身。
至关重要的是,如果框架,这三个任务可以通过变分自由能最小化的生成概率模型观察。因为我们可以自动变分自由能最小化的概率编程语言,人类设计的唯一任务是指定生成模型。下一节描述了模型规范。
3模型规范
在本节中,我们给出了生成模型的AIDA HA系统控制,如所示图2。在3.1节中,我们描述一个HA生成模型的输入和输出信号x和y分别。在这个模型中,助听器算法是通过执行概率推理,在第四节将讨论。助听器的一部分算法推断当前声上下文机制。在3.2节,我们介绍一个代理AIDA模型用于推断出新的参数试验。简洁的总结也提出了在生成模型补充附件…并给出相应的符号的概述补充附录表SA1。
在本节中,我们将利用概率模型的因子图的可视化。在本文中,我们关注Forney-style因子图(FFG),介绍了福尼(2001)与符号约定收养Loeliger (2004)。ffg代表映像功能由无向图的节点代表全局函数的个人因素。表示相互的节点相连的边参数的因素。FFG,一个节点可以连接到任意数量的边缘,但边缘约束最大程度的两个。更详细的审查概率图提供了建模和因素补充附录SA。
3.1声学模型
观察信号的声学模型和助听器输出由底层信号的源动力模型和动力学模型上下文。
3.1.1动力学模型的来源
我们假设观察到的声信号x由一个语音信号(或更一般的,一个目标信号,HA客户机想要关注)和一个添加剂噪声信号(HA客户不感兴趣),
在哪里
图3。声的Forney-style因子图表示模型作为指定的源信号方程式3- - - - - -11在时间指数t。观察xt被指定为一个潜在的语音信号的总和年代t和一个潜在的噪声信号nt。语音信号是时变自回归建模的过程,其系数θt由高斯随机漫步建模。噪声信号是一个上下文相关的自回归过程,通过高斯(GMM)和γ混合模型建模(ΓMM)参数ζk和τk,分别。这些混合物模型的选择变量代表了上下文ck。上下文动态模型封闭的虚线框。复合节点代表了自回归AR因素转变动力学所指定的3 b式。。助听器的输出yt被建模为提取的语音和噪声信号的加权和。
从历史上看,自回归(AR)模型被广泛用于表示语音信号(Kakusho柳田,1982;Paliwal和巴苏,1987)。声道的动态表现出不稳定的行为,言语通常划分为个人认为是似稳定的帧。不幸的是,信号通常是分段没有任何先验信息的语音结构语音信号。因此quasi-stationarity假设可能是违反和时变动力学更可能发生在分段帧(Vermaak et al ., 2002)。为了解决这个问题,我们可以使用一个时变AR模型系数的之前,导致时变AR TVAR模型(Rudoy et al ., 2011)。
在哪里
状态向量的乘法这同伴矩阵,如一个(θt)年代t−1基本上,执行两个操作:一个内积
声学模型还包含了背景噪声的模型,如声音在酒吧或火车站。许多这样的背景声音可以由彩色噪声(Popescu Zeljkovic, 1998),这反过来又可以被一个低阶AR模型(建模吉布森et al ., 1991;Gannot et al ., 1998)
在哪里
这里,⌈⋅⌉表示上限函数,它返回的最大整数或等于小于它的参数,W窗口长度。确保上述方程k是凭直觉与段的长度W,也就是说,t∈(1,W)对应于k= 1。表示时间的开始和结束索引段对应于上下文索引k,我们定义t−= (k−1)W+ 1,t+=千瓦作为一个隐式的函数k,分别。上下文可以被认为是静止在更长一段时间相比,语音信号。然而,突然变化的动力学背景噪音可能偶尔发生。例如,如果用户移动从火车站到酒吧,AR模型的参数是归因于火车站现在将描述不足的背景噪音的新环境。应对这些变化的声环境,我们引入了上下文相关的先验的背景噪音,使用高斯和伽马混合模型:
上下文在时间指数k,用ck,包括1 -l二进制向量元素c路∈{0,1},限制∑lc路= 1。Γ(α,β)代表一个伽马分布形状和速度参数α和β,分别。的hyperparametersμl,Σl,αl和βl定义不同的背景噪音环境的特点。
现在环境的声学模型已经被正式指定,我们将扩展这个模型的目标获得HA算法。HA算法的主要目标是改善声学信号的可闻度和清晰度。可闻度可以提高了放大接收到的输入信号。清晰度可以通过增加提高接收信号的信噪比(信噪比)。假设我们可以推断成分源信号年代t和nt从接收信号xt可以建模,所需的输出信号
在哪里
找到好的值收益u可以是一项艰巨的任务,因为首选参数设置可能取决于特定的听众和声学环境。
接下来,我们描述了声环境模型,允许AIDA上下文相关的参数的建议。
3.1.2动力学模型的上下文
随着HA客户通过不同的声学背景设置,如在一辆车,做杂货,在家看电视,等等)的首选参数设置HA算法往往有所不同。背景信号可以区分这些不同的声学环境。
隐藏的上下文状态变量ck在时间指数k是1 -l编码的二进制向量和元素c路∈{0,1},限制∑lc路= 1。这种情况下负责噪声模型的操作7情商。。上下文转换是由一个动态模型
元素的过渡矩阵T, T被定义为ij=p(c本土知识= 1∣cj,k−1= 1),受到Tij∈[0,1]
在哪里αj表示浓度参数对应的向量jth列t .初始化上下文状态的分类分布
的向量
3.2活动推理设计代理的用户响应模型
阿伊达的目标是不断提供最“有趣”哈调优参数的设置uk,有趣的预期已经被最小化定量解释自由能。但AIDA怎么知道客户想要什么?为了了解客户的喜好,她邀请将在任何时间评估rk∈{∅,0,1}当前公顷的性能。保持用户界面很轻,我们将假设评估是二进制编码rk= 0的反对rk= 1表示一个积极的体验。如果用户不投一个评价,我们只会记录一个缺失值,也就是说,rk=∅。下标k为rk表明,我们以同样的速度记录评估上下文动态。
如果客户提交一个负面的评价rk= 0,AIDA解释这是一个表达式,客户不满意当前的设置uk在当前的声环境ck积极的评价(反之亦然)。学会从这些评估客户的偏好,AIDA持有上下文相关的衍生模型来预测用户评估和更新该模型后观察实际的评估。在本文中,我们选择高斯过程分类器(GPC)模型作为二进制的生成模型用户评估。高斯过程(GP)是一个非常灵活的概率模型和gpc已经成功地应用于偏好学习在各种任务(朱棣文和Ghahramani, 2005年;Houlsby et al ., 2011;Huszar 2011)。我们深入讨论GPs参考读者拉斯穆森和威廉姆斯(2006)。特别地,用户响应模型的定义是上下文相关的
在12情商。,vk(⋅)是一种潜在的功能意味着函数来自全球定位系统(GPs)的混合物米l(⋅)和内核Kl(⋅⋅)。评估vk(⋅)点uk提供了一个估计的用户首选项。不失一般性,我们可以设置米l(⋅)= 0。自ck是一个炎热的编码,提高权力c路可以选择对应的GP活跃的上下文。Φ(⋅)表示高斯累积分布函数,定义为
4通过概率推理解决任务
本节阐述了解决2.2节的三个任务:1)上下文分类,2)试验设计和3)助听器算法执行。所有的任务都可以通过指定生成的概率推理模型方程式2 b- b12 b在第三节。在本节中,推理目标是正式指定基于之前提出的生成模型。
为实现推理的任务我们将使用变分消息传递生成的因子图表示模型。消息passing-based推断是高效的、模块化的和尺度好大推理任务(Loeliger et al ., 2007;考克斯et al ., 2019)。消息传递,推理任务生成模型减少可自动化的过程围绕本地计算因子图。
彻底讨论消息传递和相关的主题在这里省略了可读性,但可用补充附录SA作为参考。
4.1推理上下文分类
声环境ck通过描述了背景噪声的动态模型方程式5,7。确定当前环境下的用户,目标是基于前面的观察推断出当前上下文。技术上我们感兴趣的是确定边际分布
观测模型是在第三节完全指定的模型规范,同样作为上下文动态。迭代的先验分布是一个联合的结果执行方程式13,18,后者指的是哈从4.3节算法的执行。这个边缘分布的计算使棘手,因此上下文的推理是不可能的。这是由于1)产生的棘手自回归模型在前面的小节所述,2)难驾驭的与混合模型进行消息传递的结果。在7情商。模型结构包含一个正常AR-coefficients和过程噪声和伽马混合模型精度参数,分别。精确推理与这些混合物通过消息传递模型迅速导致棘手的推理,特别是当涉及多个背景噪声模型。因此,我们需要采取一个变分近似,这些混合物模型的输出消息被限制在家庭指数。
尽管与混合变分推理模型是可行的(主教,2006年;Laar van de, 2019年;Podusenko et al ., 2021 b),很容易收敛到局部最小值是自由能(BFE)描绘洪涝频发的更复杂的模型。变分消息来自混合模型约束正常或伽玛分布,可能失去重要的综合信息,因此他们可以导致次优的上下文变量的推理。因为上面的上下文是至关重要的欠定的源分离阶段,我们希望限制(变分)近似推理在上下文。在计算复杂度增加的成本,我们会删除在混合变分近似模型,而是扩大混合成不同的组件模型。因此,每个不同的模型现在包含一个混合组件的对于一个给定的上下文和现在的确切消息来自先知先觉ξk和τk。因此我们只需要采取一个变分近似的自回归节点。通过扩大混合模型成不同的模型来减少变分近似,计算后验分布的上下文
4.2推理助听器调优参数的试验设计
提出的目标替代HA调优参数设置(3)的任务是在未来接受积极的用户响应。用户反应自由能最小化期望未来可以实现通过一个称为预期的过程自由能(EFE)最小化(Friston et al ., 2015;Sajid et al ., 2021)。
爱因斯坦方程作为诱发试验选择标准自然之间的权衡探险的寻求(信息)和剥削(奖励寻求)的行为。在位于哈个性化,这是可取的,因为征求用户的反馈可以负担和入侵,如2.2节所述。从代理的角度来看,这意味着收集用户偏好信息之间的平衡和令人满意的学习偏好是至关重要的。爱因斯坦方程提供了一种方法来解决这个权衡,灵感来自neuro-scientific证据表明大脑运作下类似的协议(Friston et al ., 2015;帕尔和Friston, 2017)。爱因斯坦方程的定义是Friston et al。(2015)。
爱因斯坦场方程的下标表示是一个函数的审判吗u。爱因斯坦方程可以分解成Friston et al。(2015)。
它包含一个信息增益的术语和utility-driven术语。最小化最大化的爱因斯坦方程减少这两个术语。最大化的效用驱动推动代理向匹配的预测用户响应问(r∣u)与前一个目标所需的用户响应p(r)。这个目标之前允许编码的信念对未来我们希望观察观察。之前设定的目标匹配积极用户反应然后驱动剂对参数设置,它认为在未来让用户高兴。信息增益的术语Eq。15驱动器的代理优化EFE寻求最大限度地信息关于潜在的状态响应v。
选择未来的收益u向用户提出,我们需要找到
直观地说,一个能想到的Eq。16作为一个两步过程与内部和外部循环。内循环发现近似后验问使用贝叶斯推理(近似),条件在一个特定操作参数u。外循环评估产生的爱因斯坦方程的函数u并提出了一套新的收益来降低爱因斯坦方程。对于我们的实验我们考虑一个候选网格可能的收益。对于每个候选人我们爱因斯坦场方程计算结果,然后选择得分最低的提议下一组的收益要呈现给用户。
概率模型用于AIDA GPC混合物。为简单起见,我们将限制对全科医生的推断相应的地图估计ck。试验之间,相应的医生需要更新以适应新的从用户收集的数据。具体来说,我们感兴趣的是找到潜在用户偏好函数后。
我们假设AIDA以前查询访问数据集组成的吗u1:k−1和评估r1:k−1我们在查询模型uk。虽然这个推理任务的GPC是棘手的,存在许多近似推理的技术,如变分贝叶斯方法,期望传播和拉普拉斯近似(拉斯穆森和威廉姆斯,2006年)。星际2补充附录描述的具体细节AIDA的推理实现的推理任务。
4.3推理算法执行助听器
拟议的助听器算法的主要目标是提高可闻度和清晰度HA re-weighing推断出源信号的输出信号。在我们的模型中观察到的信号方程式2- - - - - -7我们感兴趣的是迭代推断潜在的语音和噪声信号的边缘分布p(年代t,nt∣x1:t)。这个推理任务在文学有时被称为通知源分离(Knuth 2013)。推断潜在的演讲试图优化解决这些信号和噪声信号的观测信号根据演讲的子模型和噪声来源。这要求我们计算后验分布与语音和噪声信号。为此,我们通过消息传递进行概率推理的声学模型方程式2- - - - - -7。可以计算后验分布以在线的方式使用序贯贝叶斯更新通过求解Chapman-Kolmogorov方程(Sarkka 2013)。
在哪里zt和Ψk表示动态状态和静态参数的设置zt= {θt,年代t,nt}和Ψk= {γ,τk,ζk分别}。在这里,美国和参数对应的潜在的基于“增大化现实”技术和TVAR模型方程式3,5。此外,我们假设上下文并没有改变,也就是说,k是固定的。当环境改变Eq。18需要延长集成在不同参数。不幸的是,解决Eq。18不易于分析。这是因为1)集成的大状态空间,2)non-conjugate prior-posterior配对,和3)的情况下封闭的解证据因子(Podusenko et al ., 2021 a)。为了规避这个问题,我们采取一个混合消息传递算法,结合结构化变分消息传递(SVMP)和愚蠢的信念传播是自由能最小化(Şenoz et al ., 2021)。补充附录SA更详细地描述这些概念。
SVMP和BP算法的细节,我们读者参考补充附录SA,Dauwels (2007),Şenoz et al。(2021)。由于模块化的因子图,可以将消息传递更新规则列表,只需要导出一次为每个节点包含的因素。推导过程sum-product更新规则的节点可以在基本因素Loeliger et al。(2007)复合AR的和派生的结构化变分规则节点中可以找到Podusenko et al。(2021)。混合物中的变分更新模型中可以找到Laar van de (2019)和Podusenko et al。(2021 b)。所需的一些变量的近似边缘分布z可以通过乘以计算边缘上的传入和传出的变分消息对应我们的兴趣的变量
推断后验分布的基础上年代t和nt,这些信号可以用于推断助听器输出情商。产生一个个性化的输出之间的妥协残余噪声和语音失真。
5实验验证和确认
在本节中,我们首先验证我们方法的三个设计任务2.2节。具体来说,在5.1节中,我们评估上下文推理方法的分类性能报告正确分类相对应的背景信号段。在5.2节我们评估性能的智能代理,积极提出助听器设置和学习用户首选项。助听器的执行算法验证了5.3节中通过评估源分离性能。结论本节中,我们为整个系统提供一名示威者在5.4节。
所有算法都是在科学的编程语言实现茱莉亚
(Bezanson et al ., 2017)。在我们的模型中概率推理是使用开源的自动化茱莉亚
包ReactiveMP
2(Bagaev和德弗里斯,2022年)。所有的实验提出了在这一节中可以找到在我们AIDA GitHub库。3
5.1背景分类验证
验证上下文推断通过贝叶斯模型选择不当,就会生成合成后的数据生成模型:
与先知先觉
在哪里co选择长度吗l= 4。事件的概率π和集中参数αj被定义为π= (0.25,0.25,0.25,0.25)⊺和αj= (1.0,1.0,1.0,1.0)⊺,分别。我们生成一个1000帧序列,每个都包含100个样本,这样我们有100×1000数据点。每一帧的四个不同的上下文中。每个上下文都对应于一个AR模型参数中给出表1。
验证上下文分类的过程中,我们希望确定哪种模式最接近观测数据。为此,四个相同的规范模型生成数据集了。我们用信息先验系数和AR模型的精度。此外,我们延长组模型AR(5)与弱信息先验模型和高斯i.i.d.模型可以视为零级的AR模型,即。基于“增大化现实”技术(0)。各个帧包含100个样本分别处理,我们是自由能计算为每个不同的模型。介绍了是自由能补充附录SA4。通过逼近真实模型使用描述的是自由能作为证据补充附录那么,我们进行近似贝叶斯模型选择通过选择模型是自由能最低的。这个模型然后对应于帽子我们最可能的上下文。我们强调推理得到的结果图4。
我们评估上下文分类过程的性能使用近似计算贝叶斯模型选择的分类精度度量定义为
在哪里tp,tn是真阳性的数量和真正的负值,分别。N对应的总数量的观察,在这个实验中设置N= 1000。在这种情况下分类实验中,我们取得了一个分类的准确性acc= 0.94。
5.2实验设计验证
评估性能的智能代理不是微不足道的。因为代理自适应交易勘探开发,精度指标是不充分的。有理由代理转向远离它认为最优来获取更多的信息。作为一个验证实验我们可以研究代理与模拟用户进行交互。我们的模拟用户二进制评估样品rk基于HA参数uk作为
在哪里u*表示最优参数设置,ukAIDA提出的设置的参数在时间吗k,Λ用户是一个对角权衡矩阵控制速度积极评估的概率衰减与距离平方u*。2确保当常数uk=u*积极评估的概率是1,而不是0.5。在我们的实验中,我们设置u* = [0.8,0.2]⊺和Λ的对角元素用户到0.004。这个结果在用户偏好函数p(rk= 1∣uk)所示图5。
用于AIDA的内核是一个平方指数内核,由
在哪里l和σ这个内核的hyperparameters。直观地说,σ是一个静态噪声参数和l编码的光滑核函数。hyperparameters都初始化为σ=l= 0.5,不提供信息的规模的实验。我们让代理搜索80试验和更新hyperparameters第五试验使用共轭梯度下降法实现Optim.jl
(K Mogensen和N位,2018年)。我们限制hyperparameters域(0.1,1),以确保稳定的优化。我们会看到,每个实验的大部分AIDA只收到负面评价。AIDA根本上是一个标识符的生成模型和无约束优化时可能因此导致退化的结果数据集只包含一个类的实例。对所有实验,AIDA的第一个建议是一个容许集的随机采样参数参数,因为AIDA没有先验知识的用户偏好函数。这个随机初始提议,所有模拟代理导致不同的行为。
我们提供两个AIDA的验证实验。首先,我们将彻底检查一个运行为了研究AIDA交换机之间的探索性和剥削的行为。其次,我们检查代理测试的总体性能的系综平均性能。评估一个运行的性能,我们可以检查不同的演变的爱因斯坦方程分解Eq。15随着时间的推移。我们预计,当AIDA主要是探索,效用驱动相对较低,而信息增益是相对较高的。当AIDA是主要从事开发,我们期望相反的模式。我们分别给这些术语图6。
图6实验表明,有不同的阶段。一开始(k< 5)AIDA看到大幅降低效用驱动和信息增益的条件。这表明一个饱和的搜索空间,没有点礼物不错的选择。这发生的早期由于不提供信息的GPC hyperparameter设置。试验5后,这些hyperparameters优化和代理不再认为它已经饱和的搜索空间,这可以解释为跳跃图6从试验5到6。从试验6在15我们观察到一个相对较高的信息增益和相对较低的效用,这意味着代理仍在探索参数设置的搜索空间产生一个积极的用户评价。代理首次获得积极的评价k= 16,用效用驱动和信息增益下降。第一个积极评价是紧随其后的是一段时间的振荡在这两个术语,精炼剂的参数。终于AIDA落定下来主要剥削行为从第41审判。检查第一个过渡,我们可以想象EFE景观k= 5,k= 6,上一行图7。
回想一下,AIDA是EFE最小化。因此,寻找最低的值对应于蓝色区域,避免高值对应红色区域。之间的k= 5,k= 6我们执行第一个hyperparameter更新,极大地改变了EFE景观。这表明初始参数设置没有信息,我们没有涵盖的大部分在前5的迭代搜索空间。黄色区域k= 6表示区域对应于先前提议的AIDA导致负面评价。我们可以想象的快照从探索阶段k= 6以类似的方式。的第二行图7显示了EFE景观两个不同的实例在探索阶段。这表明在实验中,AIDA搜索空间逐步构建一个表示。试验16这需要的连接区域模式的形式表示地区AIDA认为不太可能导致积极的评估。
一旦AIDA接收第一个积极评价k= 16,它从探索搜索空间切换到只关注当地的地区。如果我们检查图6这个时候,我们看到,信息增益项仍相当高。这表明一个微妙之处:一旦AIDA收到一个积极的评价,它开始与当地探索周围的最佳可能的位置。然而,代理是最优的边界附近和明年收到负面评价。因此在试验18 - 22 AIDA查询点它认为最有益的。时间23 AIDA的位置在搜索空间(黑点在第三排图7)返回用户偏好函数的边缘图5。这导致AIDA接受正面和负面评价的混合物在接下来的试验中,导致振荡中看到图6。最后,我们可以检查景观AIDA后自信地找到最优和转向纯粹的剥削行为。这发生在k= 42的效用驱动趋于0和周围的信息增益集中−1。
最后一行的图7显示一次u*是自信,AIDA忽视了剩下的搜索空间提供良好的参数设置。最后,如果用户继续供应数据阿依达,它将逐渐扩展的潜在地区最佳样本。这表明如果一个用户一直请求更新参数,AIDA将再次执行本地最佳勘探。这进一步表明,AIDA提供循序渐进的培训作为用户的听力损失状况会随着时间而改变。
彻底检查运行一个例子,调查由AIDA类型的行为,我们现在可以将注意力转向总体性能的一个代理。为此我们与相同hyperparameters重复实验的80倍,但随着不同的初始方案。我们最感兴趣的是如何快速的度量AIDA能够找到最优,产生一个积极的评价。
图8显示了在每个代理的热图得到积极的响应。积极响应所示黄色方块被黑色的矩形和消极的反应。每一行的结果包含一个AIDA-agent,每一列表示一个时间步的实验。一致的结果一个代理,我们看到每个实验开始于一段时间的探索。大量的行也显示一个黄色的35平方在第一试验,表明最优。有趣的是,没有代理收到只有积极的反应,即使在定位最优。此前从AIDA积极交易勘探开发。探索时,次优AIDA可以选择参数对诱发积极的用户反应,收集更多的信息。图8还显示了一个柱状图表明当每个代理首次获得积极的评价。非常正确的列显示代理未能找到最优内指定数量的试验。总的来说,66/80代理正确解决任务,对应于82.5%的成功率。无视成功运行,平均而言,AIDA获得积极响应37.8试验平均值为29.5试验。
图8。(一)热图显示整体性能超过80代理。积极的和消极的反应与黄色和黑色方块表示,分别。(B)直方图显示时间指数代理首次获得了积极回应。最右边列表明代理未能获得一个积极的评价。总的来说,66/80代理解决任务,对应于82.5%的成功率。
5.3助听器算法执行验证
验证拟议的助听器算法推理方法执行,我们合成数据的抽样生成模型如下:
与先知先觉
在哪里米和N分别TVAR和AR模型的命令,和在哪里米≥N持有,我们假定噪声信号可以通过降低AR建模相比,语音信号。我们使用一个之前不提供信息的助听器的输出yt就像在图3为了防止交互图的一部分。我们生成1000个不同的时间序列长度为100。对于每个生成的时间序列,(电视)基于“增大化现实”技术的订单米和N从离散域采样[4、8]和[1,4],分别。我们重新取样的先验最初TVAR和AR过程导致了不稳定。
生成的时间序列被用于以下实验。我们首先创建了一个概率模型具有相同规格的生成模型Eq。24。然而,我们使用欠先验模型的状态和参数,对应的TVAR进程24 b情商。。确保分离源参数的可辨识性,我们使用弱信息先验参数的基于“增大化现实”技术的过程24 c情商。。具体来说,意味着之前的ζ是围绕着真正的AR系数被用于数据生成过程。实验的目标是1)来验证提出的推理过程恢复隐藏的状态θt,年代t和nt为每个生成的数据集和2)来验证BFE收敛是描绘洪涝频发不能保证收敛,因为我们的图包含循环(墨菲et al ., 1999)。对于一个典型的情况下,推理结果的隐状态年代t和nt所示图9。
图9。(一)推理结果隐藏状态年代t和nt耦合(电视)的基于“增大化现实”技术的过程在999年数据集。(左)生成的观察到的信号xt有潜在生成的信号年代t和nt。(中心)的信号年代t及其相应的后近似。(右)的信号nt及其相应的后近似。虚线对应于后的均值估计。透明的区域代表相应的剩余不确定性,加减一个标准差的意思。(B)推理结果系数θt999年的数据集。实线对应于真正的潜在的AR系数。虚线对应后的估计系数的均值和透明区域对应于加减一个标准差的意思估计系数。
的图9 b显示的跟踪时变系数θt。这个情节不显示推断系数之间的相关性,而这实际上包含建模一个声学信号的重要信息。即系数共同指定一组的波兰人,影响信号的频谱的特点。描述了一个有趣的例子图10。我们可以看到潜在的推理结果年代t和nt交换关于真正的潜在信号。这种行为是不可取的标准算法时的输出公顷生产基于硬编码的收益。然而,我们的智能代理的存在仍然可以为这种情况找到最佳的收益。助听器的自动化算法和智能代理会减轻这种负担HA的客户。
图10。推理结果隐藏状态年代t和nt耦合(电视)AR过程的数据集42。在这种特殊情况下它可以指出,推断国家交换对真正的潜在信号。然而,伴随智能代理能够应付这些类型的情况下,这样的HA客户不经历任何问题。
我们可以看到图11,是自由能平均超过所有生成的时间序列单调减少。注意,即使提出混合消息传递算法的结果在一个固定的解决方案,它不提供保证收敛性。
5.4验证实验
的验证提出算法和AIDA,我们创建了一个交互式web应用程序4演示联合系统。图12显示了演示的接口。
图12。AIDA的交互式web应用程序的屏幕截图。仪表盘包括四个不同的细胞。顶部细胞环境允许用户改变产生的干扰噪声信号从噪声信号(合成),一个真正的噪声信号。此外它包含一个复位按钮复位应用程序。助听器的细胞提供了一个互动的情节输入,生成语音分离,分离噪声,输出波形信号。每一个波形都可以玩时对应的按钮被按下。NEXT按钮加载一个新的音频文件进行评估。竖起大拇指和责备按钮对应为AIDA提供正面和负面评价,分别。大脑GPC的按钮开始优化参数。 The EFE Agent cell reflects the agent’s beliefs about optimal parameters for the user as an EFE heatmap. The Classifier cell shows the Bethe free energy (BFE) score for the different models, corresponding to the different contexts. For the real noise signal, the algorithm automatically determines whether we are surrounded by babble noise, or by noise from a train station.
用户听助听器算法的输出通过按“输出”按钮。“演讲”和“噪音”的按钮对应的信仰AIDA HA的组成信号输入。注意,在现实中用户没有访问这些信息,只能听哈输出。听后输出信号,用户被邀请来评估当前的性能设置。用户可以发送正面和负面评价按拇指分别向上或拇指向下按钮。一旦发送鉴定,AIDA更新其信仰有关参数的空间,提供了新的设置HA算法让用户高兴。作为GPC AIDA模型用户评估使用,我们提供了一个额外的按钮,迫使AIDA GPC的优化参数。这可能是有用的,当AIDA已经收集了一些来自用户的反馈,包括正面和负面评价。
示威者在两个环境:合成和真实的。合成环境允许用户听口语句子有两个人工噪声源,即。从一个正弦波干扰或钻床。在合成环境中助听器算法利用了声学知识背景,即。,它使用信息先验的AR模型对应于噪音。实际环境中使用来自NOIZEUS语音语料库的数据。5特别是,真正的环境由30句明显在两个不同的噪声环境。这里的用户体验周围的噪音在火车站或喋喋不休的声音。在现实环境中,HA算法使用弱信息先验的背景噪音影响HA算法的性能。HA算法和AIDA确定声环境是自由能分数的基础上,也显示在演示。低的背景是自由能分数对应于选中的声学环境。
6相关工作
助听器个性化的问题一直在探索各种工作。在尼尔森et al。(2015)HA参数调整成对用户评估测试,在用户的感知编码使用高斯过程。棘手的后验分布对应于用户的感知然后使用拉普拉斯近似计算与预期改善收购函数用于选择未来的收益。我们的代理可以提高在尼尔森et al。(2015)在两种具体方式。首先,AIDA地方认知负荷较低的用户不需要成对比较。这意味着用户不需要保持在她的记忆中HA听起来像在以前的审判,但是只需要考虑当前公顷产量。AIDA培训不需要更多的试验来做到这一点。事实上,自从AIDA不需要训练的但可以训练完全在线现场条件,AIDA需要较少的数据来定位优化收益。其次,AIDA可以训练和接受再培训,不断学习的方式。用户偏好随时间变化的,例如通过改变听力损失,AIDA可以顺利适应用户只要她继续为代理提供反馈。利用EFE收购功能意味着代理将参与当地探索最佳位于后,主要代理自然学习转变平衡勘探开发的用户首选项。在Alamdari et al。(2020)、个性化的助听器压缩算法来框定的强化学习。相反,在我们的工作,我们把灵感从活跃的推理框架,代理行为最大化模型基础生成模型的证据。重要的是,这并不需要我们来显式地指定一个损失函数驱动剥削和认知行为。在最近的工作Ignatenko et al。(2021),助听器偏好通过序贯贝叶斯学习算法实现优化与成对比较。助听器系统包括两个子系统代表用户与他们的偏好和代理指导学习过程。然而,Ignatenko et al。(2021)只专注于探索通过最大化信息增益参数模型。爱因斯坦方程另外添加一个目标指示词确保代理将保持在最佳位置后,即使其他参数设置提供更多的信息。扩展的模型Ignatenko et al。(2021)采用完整的爱因斯坦方程是一个令人兴奋的潜在未来工作方向。最后都没有尼尔森et al。(2015)也不Ignatenko et al。(2021)考虑了上下文的依赖。
Friston卡尔·j . et al。(2021)介绍了积极倾听(AL)执行语音识别的原则基础上积极的推理。在Friston卡尔·j . et al。(2021)他们认为听力是一个活跃的过程,在很大程度上是受到词汇的影响,扬声器和韵律信息。Friston卡尔·j . et al。(2021)本身有别于传统的音频处理算法,因为它显式地包含字边界的过程中选择单词分类和识别之前,他们认为这是一个活跃的过程。单词边界被选中的候选单词边界,基于贝叶斯模型的选择,通过选择优化的词界VFE在分类。在未来,我们看到的将艾尔方法纳入AIDA的潜力。活跃的推断是成功应用工作福尔摩斯et al。(2021)研究选择性注意模型在一个鸡尾酒会上听设置。
AIDA本质上的音频处理组件执行通知源分离(Knuth 2013),基于先验知识的来源是分开的。尽管盲源分离方法(谢et al ., 2012;Laufer Gannot, 2021)总是用某种程度的信息之前,我们不关注这个方向,而我们积极努力模型底层来源基于自回归过程的变化。音频处理应用程序的源分离常被执行在能量对数域(弗雷et al ., 2001;兰尼et al ., 2006;兰尼et al ., 2009)。然而,在这一领域的信号之间的相互作用不再是线性的。难驾驭,结果执行精确推理在这个模型通常是解决通过简化交互功能(拉德法et al ., 2006;好时et al ., 2010)。尽管这种方法已经证明是成功的过去,它的性能是有限的,因为疏忽的相位信息。
7讨论
我们引入了一个设计代理能够优化一个助听器的上下文相关的参数算法,将用户的反馈。在整个论文中,我们取得了一些设计选择的影响我们在本节审查不久。
音频模型介绍了在3.1节描述了语音信号的动态摄动的有色噪声。尽管拟议中的推理算法允许分解成语音和噪声分量的信号,有一些局限性,必须突出显示。首先,耦合的AR模型参数的可辨识性取决于所选的先知先觉。欠先验会导致贫穷源估计(Kleibergen隐谷,1995年;萧,2008)。解决可识别性问题,我们使用信息上下文相关的先验。换句话说,对于每个上下文,我们使用一组不同的先验,更好的描述的动态声信号在这种情况下。其次,在我们的实验中我们使用固定的TVAR订单和AR模型。在现实中,我们没有之前的实际订单基本信息信号。因此,不断更新我们的模型的潜在来源,我们需要执行活动顺序的选择,可以实现使用贝叶斯模型减少(Friston一分钱,2011;Friston et al ., 2018)。第三,我们的模型假定助听器设备只有单声道的输入,这意味着观察信号来源于单麦克风。因此我们不使用任何空间信息取得了一个声信号,可以使用多个麦克风。这种假设主要是受到我们希望专注于助听器的概念设计一个小说类的算法,而不是构建实际HA引擎。幸运的是,该框架允许方便地替换源模型更通用的模型可能更适合演讲。例如,可以使用一个麦克风,通常在波束形成(Ozerov Fevotte, 2010),或者使用频率分解为提高源分离性能(弗雷et al ., 2001;兰尼et al ., 2006,2009年)。不可避免的是,一个更复杂的模型也将可能导致更高的计算负担。因此,这个算法的实现嵌入式设备上仍然是一个挑战。
代理的力量来自于目标函数的选择。自生成模型的目标是独立的,一个简单的方法来改善代理是适应生成模型。特别是,GPC是一种非参数模型与假设很少在底层函数。将限制偏好函数,如完成考克斯和德弗里斯(2017)和Ignatenko et al。(2021),可能会提高数据代理的效率。可以说,一个核心的移动考克斯和德弗里斯(2017)和Ignatenko et al。(2021)是承认用户首选项可能会围绕一个或几个最佳状态达到顶峰。即使真正的偏好函数有多个模式,假设一个峰值的代理是安全的,因为它只需要定位的模式提供良好的参数设置。使这种假设允许作者使用一个参数模型在用户首选项。使用不灵活的模型预测会导致数据效率更高,这能帮助她代理的性能。鉴于AIDA的目标人群包括哈用户,这是至关重要的代理能够学习充足的用户首选项表示在尽可能少的试验,避免给用户带来不便。
在模型规范的3.2节中,我们在控制变量做一些假设uk和用户评价rk。首先,我们设置控制变量的域的元素uk[0,1]。请注意,这是一个任意约束我们用于演示目的。域可以很容易地新不失一般性。例如,在我们的演示中,我们使用默认域uk∈(0,2)2。其次,我们选择二进制用户评价,也就是说,rk∈{∅0 1}。这个设计选择遵循允许用户通信需求的阿依达的秘密。二进制用户评价可以更容易与例如秘密手腕运动时穿着smartwatch更新控制变量。与连续用户评估。rk∈[0,1],或两两比较测试AIDA的融合可以大大提高这些评估产生更多的信息/评估。然而,为AIDA提供这些评估需要更多的关注,这是不受欢迎的在某些情况下,例如在业务会议。
AIDA的真实世界的测试没有被包含在我们的工作中。绩效评估与人类HA客户却并非易事。评估AIDA的性能,我们需要进行随机对照试验(RCT), HA客户应该被随机分配到实验组或对照组。虽然当前智能AIDA代理可以与用户的实时交互,源分离框架目前限制实际的实时性能。在当前模型假设,即。,two auto-regressive filters under a variational approximation, we obtain a pretty good source separation performance at the cost of computational complexity. Hence, the complete framework is not suitable for the proper RCT setting. Nonetheless, we provide a demo that simulates AIDA and can be tested freely. In future work, we shall focus on specifying source models that exhibit cheap computations allowing us to run the source separation algorithms in real-time.
8的结论
本文提出了AIDA,一个活跃的推理小说situation-aware个性化设计代理助听器算法。阿依达和相应的助听器算法是基于概率生成模型,模型的用户和底层的演讲和上下文相关的背景噪音信号的观察到的声信号,分别。通过概率推理通过消息传递,我们执行通知源分离在这个模型中,并使用数据源特定分离信号进行过滤。AIDA然后通过用户交互数据源特定的个性化学习收益,取决于用户的环境。用户可以给一个二进制评估之后,代理将一种改进的建议,基于预期的自由能最小化鼓励剥削和认知行为。AIDA的操作是上下文相关的,并使用助听器算法,基于贝叶斯模型选择。实验结果表明,混合消息传递能够找到的隐藏状态耦合的AR模型与语音和噪声相关的组件。此外,贝叶斯模型选择一直测试上下文推理问题,每个源由AR建模过程。偏好学习实验显示出潜在的应用预期自由能minization助听器的寻找最优设置算法。虽然真实的实现仍然存在挑战,这部小说类的音频处理算法有可能改变主要助听器的算法设计方法。 Future plans encompass developing AIDA towards real-time applications.
数据可用性声明
在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入数量(s)可以在文章中找到补充材料。
作者的贡献
任何违法之处,概念化,美联社,可,击穿电压;任何违法之处,方法论,美联社,可;任何违法之处,软件、美联社和可;任何违法之处,验证、美联社、和可;任何违法之处,正式分析,美联社,可,击穿电压;任何违法之处,原创作品草稿准备,美联社,可;任何违法之处,writing-review和编辑,美联社,可,击穿电压;任何违法之处,可视化,美联社,可;监督,击穿电压;项目管理、击穿电压; funding acquisition, BdV.
资金
这项工作在一定程度上由GN先进科学,这是GN听到/ S的研究部门,并通过研究项目与项目数字零,EDL P15-06 P16-25,分别是(部分)由荷兰科学研究组织(NWO)。投资者没有参与这项研究设计、收集、分析、解释数据,本文的写作或提交出版的决定。
的利益冲突
项目的执行期间,可也使用了嵌套的思想解决方案。击穿电压也受雇于GN听到/ S。
其余作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
确认
作者要感谢BIASlab团队成员关于各种主题的深刻讨论与此相关的工作。
补充材料
本文的补充材料在网上可以找到:https://www.雷竞技rebatfrontiersin.org/articles/10.3389/frsip.2022.842477/full补充材料
脚注
1Aida是女孩的名字起源于阿拉伯语,意为“快乐。“我们使用这个名称缩写“活动推理设计代理”,旨在让最终用户“快乐”。
2ReactiveMP
(Bagaev和德弗里斯,2022年)可在https://github.com/biaslab/ReactiveMP.jl
3AIDA GitHub库可在所有实验https://github.com/biaslab/AIDA
4AIDA的web应用程序是可用的https://github.com/biaslab/AIDA-app/
5可在NOIZEUS数据库https://ecs.utdallas.edu/loizou/speech/noizeus/
引用
Alamdari, N。,lobarinas, E., and Kehtarnavaz, N. (2020). Personalization of Hearing Aid Compression by Human-In-The-Loop Deep Reinforcement Learning.IEEE访问8,203503 - 203515。doi: 10.1109 / ACCESS.2020.3035728
Beerends, j·G。Schmidmer C。伯杰,J。,Obermann, M., Ullmann, R., Pomy, J., et al. (2013). Perceptual Objective Listening Quality Assessment (POLQA), the Third Generation ITU-T Standard for End-To-End Speech Quality Measurement Part I—Temporal Alignment.j .音频Eng。Soc。61年,366 - 384。
Bezanson, J。,Edel米一个n,一个。,K一个rp我n年代ki, S., and Shah, V. B. (2017). Julia: A Fresh Approach to Numerical Computing.暹罗牧师。59岁,65 - 98。doi: 10.1137 / 141000671
杭州中能汽轮动力有限公司,M。,l我米,F. S. C., Skoglund, J., Gureev, N., O’Gorman, F., and Hines, A. (2020).ViSQOL V3:一个开放源码的生产准备目标语音和音频指标。arXiv: 2004.09584 (cs,套)。
楚,W。,Ghahramani, Z. (2005). “Preference Learning with Gaussian Processes,” inICML 05: 22日机器学习国际会议的程序(纽约,纽约,美国:计算机协会),137 - 144。doi: 10.1145/1102351.1102369
考克斯米。,deVr我e年代,B。(2017). “A Parametric Approach to Bayesian Optimization with Pairwise Comparisons,” in少量的贝叶斯优化(BayesOpt 2017)研讨会,美国长滩,1 - 5。
考克斯米。,Laar van de, T。,deVr我e年代,B。(2019). A Factor Graph Approach to Automated Design of Bayesian Signal Processing Algorithms.Int。j .近似推理104年,185 - 204。doi: 10.1016 / j.ijar.2018.11.002
Da Costa, L。帕尔,T。,Sajid, N。,Ve年代el我c,S., Neacsu, V., and Friston, K. (2020). Active Inference on Discrete State-Spaces: a Synthesis.arXiv: 2001.07203 [q-bio] arXiv: 2001.07203。
Frey b J。邓,L。,一个cero,一个。,和Kr我年代tjansson, T. (2001). “ALGONQUIN: Iterating Laplace’s Method to Remove Multiple Types of Acoustic Distortion for Robust Speech Recognition,” in《Eurospeech会议,Aalborg,丹麦,901 - 904。
Friston, K。,Da Costa, L。Hafner, D。Hesp C。,帕尔T。(2021一个)。复杂的推理。神经第一版。33岁,713 - 763。doi: 10.1162 / neco_a_01351
Friston, k . J。Sajid, N。,Quiroga-Martinez, D. R., Parr, T., Price, C. J., and Holmes, E. (2021b). Active Listening.听到Res。399年,107998年。doi: 10.1016 / j.heares.2020.107998
Friston, K。,K我lner,J., and Harrison, L. (2006). A Free Energy Principle for the Brain.j . Physiology-Paris100年,70 - 87。doi: 10.1016 / j.jphysparis.2006.10.001
Friston, K。帕尔,T。,Zeidman, P. (2018). Bayesian Model Reduction.arXiv: 1805.07092 (stat) arXiv: 1805.07092。
Friston, K。,Penny,W。(2011)。 Post Hoc Bayesian Model Selection.科学杂志56岁,2089 - 2099。doi: 10.1016 / j.neuroimage.2011.03.062
Friston, K。,R我goli, F., Ognibene, D., Mathys, C., Fitzgerald, T., and Pezzulo, G. (2015). Active Inference and Epistemic Value.Cogn。>。6,187 - 214。doi: 10.1080 / 17588928.2015.1020053
Gannot, S。,Bur年代htein, D., and Weinstein, E. (1998). Iterative and Sequential Kalman Filter-Based Speech Enhancement Algorithms.IEEE反式。演讲音频的过程。6,373 - 385。doi: 10.1109/89.701367
吉布森,j . D。古,B。,Gr一个y,S. D. (1991). Filtering of Colored Noise for Speech Enhancement and Coding.IEEE反式。信号。的过程。39岁,1732 - 1742。doi: 10.1109/78.91144
好时,j . R。奥尔森,P。,兰尼,s . J。(2010)。“信号交互和魔鬼函数”2010年Interspeech学报》上,Makuhari、千叶、日本,334 - 337。doi: 10.21437 / interspeech.2010 - 124
汉斯,。,Skoglund, J., Kokaram, A. C., and Harte, N. (2015. ViSQOL: an Objective Speech Quality Model.音乐Proc j .音频讲话。2015年。doi: 10.1186 / s13636 - 015 - 0054 - 9
福尔摩斯,E。帕尔,T。,Gr我ff我ths, T. D., and Friston, K. J. (2021). Active Inference, Selective Attention, and the Cocktail Party Problem.>。生物行为牧师。131年,1288 - 1304。doi: 10.1016 / j.neubiorev.2021.09.038
Houlsby, N。,Huszár, F., Ghahramani, Z., and Lengyel, M. (2011). Bayesian Active Learning for Classification and Preference Learning.arXiv: 1112.5745 (Cs,统计)。
萧,t (2008)。识别时变自回归系统使用Maximuma PosterioriEstimation。IEEE反式。信号。的过程。56岁,3497 - 3509。doi: 10.1109 / TSP.2008.919393
Ignatenko, T。,Kondr作为hov, K., Cox, M., and de Vries, B. (2021). On Sequential Bayesian Optimization with Pairwise Comparison.arXiv: 2103.13192(计算机科学、数学、统计)arXiv: 2103.13192。
K Mogensen, P。,NR我年代eth, A. (2018). Optim: A Mathematical Optimization Package for Julia.神3,615。doi: 10.21105 / joss.00615
Kakusho, O。,Yanagida, M. (1982). “Hierarchical AR Model for Time Varying Speech Signals,” inICASSP 82年。IEEE国际会议音响、演讲和信号处理,法国巴黎,1295 - 1298。doi: 10.1109 / ICASSP.1982.11716437
Karadagur Ananda Reddy, C。Shankar N。,Shreedhar Bhat, G., Charan, R., and Panahi, I. (2017). An Individualized Super-gaussian Single Microphone Speech Enhancement for Hearing Aid Users with Smartphone as an Assistive Device.IEEE信号。的过程。列托人。24岁,1601 - 1605。doi: 10.1109 / LSP.2017.2750979
凯特,j . M。,一个rehart, K. H. (2005). Multichannel Dynamic-Range Compression Using Digital Frequency Warping.EURASIP j .放置信号。的过程。2005年,3003 - 3014。doi: 10.1155 / ASP.2005.3003
凯特,j . M。,一个rehart, K. H. (2010). The Hearing-Aid Speech Quality index (HASQI).j .音频Eng。Soc。今年58岁,363 - 381。
Kleibergen F。,Hoek, H. (1995). Bayesian Analysis of ARMA Models Using Noninformative Priors.中心讨论文件1995 - 116,24岁。
Kschischang, f R。弗雷,b . J。,Loeliger H.-A。(2001)。因子图和Sum-Product算法。IEEE反式。通知。定理。47岁,498 - 519。doi: 10.1109/18.910572
Laufer Y。,Gannot, S。(2021)。“盲人音频源分离、贝叶斯层次模型”2020年28日欧洲信号处理会议(EUSIPCO),276 - 280。doi: 10.23919 / Eusipco47968.2020.9287348
Loeliger H.-A。Dauwels, J。,胡锦涛,J。,Korl,S., Ping, L., and Kschischang, F. R. (2007). The Factor Graph Approach to Model-Based Signal Processing.Proc。IEEE95年,1295 - 1322。doi: 10.1109 / JPROC.2007.896497
墨菲,k . P。维斯,Y。,Jordan, M. I. (1999). “Loopy Belief Propagation for Approximate Inference: An Empirical Study,” in15会议程序的不确定性人工智能(美国伯灵顿,MA:摩根Kaufmann出版商公司。),467 - 475。
尼尔森,J。,尼尔森,J。,l一个r年代en,J. (2014). Perception-Based Personalization of Hearing Aids Using Gaussian Processes and Active Learning.Ieee / acm反式。朗音频讲话。过程。23日,1。doi: 10.1109 / TASLP.2014.2377581
Ozerov,。,Fevotte, C. (2010). Multichannel Nonnegative Matrix Factorization in Convolutive Mixtures for Audio Source Separation.IEEE反式。朗音频讲话。过程。18日,550 - 563。doi: 10.1109 / TASL.2009.2031510
Paliwal, K。,B一个年代u,一个。(1987)。“一个基于卡尔曼滤波的语音增强方法,”87:ICASSP IEEE国际会议音响、演讲,和信号处理,美国达拉斯,TX,177 - 180。doi: 10.1109 / ICASSP.1987.116975612
帕尔T。,Friston, k . J。(2017)。不确定性、认知和活跃的推理。j . r . Soc。Interf。14日,20170376。doi: 10.1098 / rsif.2017.0376
Podusenko,。Kouw, w . M。,deVr我e年代,B。(2021a). Message Passing-Based Inference for Time-Varying Autoregressive Models.熵23日,683年。doi: 10.3390 / e23060683
Podusenko,。Kouw, w . M。,deVr我e年代,B。(2020). “Online Variational Message Passing in Hierarchical Autoregressive Models,” in2020年IEEE国际研讨会信息理论(拜访),美国洛杉矶CA,1337 - 1342。doi: 10.1109 / ISIT44484.2020.9174134
Podusenko,。范Erp, B。Bagaev D。,我Senoz。,deVr我e年代,B。(2021b). “Message Passing-Based Inference in the Gamma Mixture Model,” in2021年IEEE 31日国际研讨会在机器学习信号处理(MLSP)(黄金海岸,澳大利亚:IEEE),1 - 6。doi: 10.1109 / MLSP52302.2021.9596329
Popescu D。,Zeljkovic, I. (1998). “Kalman Filtering of Colored Noise for Speech Enhancement,” inICASSP 98: 1998年《IEEE国际会议音响、演讲和信号处理,美国西雅图,华盛顿州,997 - 1000。卷2。doi: 10.1109 / ICASSP.1998.675435
拉德法,m . H。,B一个n我hashemi, A. H., Dansereau, R. M., and Sayadiyan, A. (2006). Nonlinear Minimum Mean Square Error Estimator for Mixture-Maximisation Approximation.电子。列托人。42岁,724 - 725。doi: 10.1049 / el: 20060510
兰尼,s . J。,好时,j . R。,Olsen, P. A. (2009). “Single-channel Speech Separation and Recognition Using Loopy Belief Propagation,” in2009年ICASSP: IEEE国际会议音响、演讲和信号处理,台北,台湾,3845 - 3848。doi: 10.1109 / ICASSP.2009.4960466
兰尼,S。,Kr我年代tj一个n年代年代on,T., Olsen, P., and Gopinath, R. (2006). “Dynamic Noise Adaptation,” in2006年IEEE国际会议言论声学和信号处理程序(图卢兹,法国:IEEE),1 - 4。卷1。doi: 10.1109 / ICASSP.2006.1660241
一种音乐形式,a·W。,Beerends, j·G。,Hollier, M. P., and Hekstra, A. P. (2001). “Perceptual Evaluation of Speech Quality (PESQ)-a New Method for Speech Quality Assessment of Telephone Networks and Codecs,” in2001年IEEE国际会议音响、演讲和信号处理(美国犹他盐湖城:IEEE),749 - 752。卷2。
Rudoy D。,Quatieri, T. F., and Wolfe, P. J. (2011). Time-Varying Autoregressions in Speech: Detection Theory and Applications.IEEE反式。朗音频讲话。过程。19日,977 - 989。doi: 10.1109 / TASL.2010.2073704
Sajid, N。,B一个ll,P。J., Parr, T., and Friston, K. J. (2021). Active Inference: Demystified and Compared.神经第一版。33岁,674 - 712。doi: 10.1162 / neco_a_01357
Şenozİ。,Laar van de, T。Bagaev D。,deVr我e年代,B。d. (2021). Variational Message Passing and Local Constraint Manipulation in Factor Graphs.熵23日,807年。doi: 10.3390 / e23070807
胜利谢,S。刘洋,L。,Jun-Mei Yang, J., Guoxu Zhou, G., and Yong Xiang, Y. (2012). Time-Frequency Approach to Underdetermined Blind Source Separation.IEEE反式。神经。学习。系统。23日,306 - 316。doi: 10.1109 / TNNLS.2011.2177475
塔阿尔,c . H。,Hendriks, R. C., Heusdens, R., and Jensen, J. (2011). An Algorithm for Intelligibility Prediction of Time-Frequency Weighted Noisy Speech.IEEE反式。朗音频讲话。过程。19日,2125 - 2136。doi: 10.1109 / TASL.2011.2114881
Tschantz,。,B一个lt我er我,米。,Seth, A. K., and Buckley, C. L. (2020). “Scaling Active Inference,” in2020年国际神经网络(IJCNN)联合会议(IEEE),1 - 8。doi: 10.1109 / ijcnn48605.2020.9207382
Laar van de, T。,deVr我e年代,B。(2016). A Probabilistic Modeling Approach to Hearing Loss Compensation.Ieee / acm反式。朗音频讲话。过程。24岁,2200 - 2213。doi: 10.1109 / TASLP.2016.2599275
Laar van de, T。,Özçelikkale, A., and Wymeersch, H. (2019). Application of the Free Energy Principle to Estimation and Control.arXiv预印本arXiv: 1910.09823。
Laar van de, t·W。,deVr我e年代,B。(2019). Simulating Active Inference Processes by Message Passing.前面。机器人。人工智能6日,20。doi: 10.3389 / frobt.2019.00020
van Erp, B。,Podusenko,。,Ignatenko, T。,deVr我e年代,B。 (2021). A Bayesian Modeling Approach to Situated Design of Personalized Soundscaping Algorithms.达成。科学。11日,9535年。doi: 10.3390 / app11209535
Vermaak, J。,一个ndr我eu,C。,Doucet, A., and Godsill, S. J. (2002). Particle Methods for Bayesian Modeling and Enhancement of Speech Signals.IEEE反式。演讲音频的过程。10日,173 - 185。doi: 10.1109 / TSA.2002.1001982
关键词:活跃的推理,贝叶斯试验设计,助听器,降噪,概率建模、源分离,语音增强,变分消息传递
引用:Podusenko, van Erp B, Koudahl M和B•德•弗里斯(2022)《阿伊达》:一个活跃的推理设计代理音频处理算法。前面。Proc团体。2:842477。doi: 10.3389 / frsip.2022.842477
收到:2021年12月23日;接受:2022年1月25日;
发表:07年3月2022年。
编辑:
越来越Chakrabarty弗劳恩霍夫学院集成电路(IIS),德国版权©2022 Podusenko van Erp, Koudahl和德弗里斯。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:阿尔伯特•Podusenkoa.podusenko@tue.nl
__这些作者贡献了同样的工作