1介绍gydF4y2Ba
在分布式中继波束形成网络中,空间分布式中继协同地支持源和目的地之间的通信(gydF4y2BaHavary-Nassab等人,2008agydF4y2Ba;gydF4y2Ba李等,2011gydF4y2Ba;gydF4y2Ba刘和Petropulu, 2011gydF4y2Ba).分布式波束形成的概念有望扩大通信范围,并将由于分散到不需要的方向而浪费的发射功率降至最低。gydF4y2BaBarriac等人,2004年gydF4y2Ba).gydF4y2Ba
智能节点移动性作为提高通信服务质量(QoS)的一种手段已被研究。在(gydF4y2BaChatzipanagiotis等人,2014gydF4y2Ba),考虑了中继运动控制和最优发射波束形成的相互作用,以使中继发射功率最小为目标,受qos相关约束。在(gydF4y2BaKalogerias等人,2013年gydF4y2Ba),考虑在窃听者存在的情况下中继的最优定位,以使保密率最大化。在通信感知机器人的背景下,运动已被控制,目的是保持网络内连接(gydF4y2BaYan和Mostofi, 2012gydF4y2Ba;gydF4y2BaYan和Mostofi, 2013gydF4y2Ba;gydF4y2BaMuralidharan和Mostofi, 2017gydF4y2Ba).gydF4y2Ba
在这项工作中,我们研究了优化中继位置序列(中继轨迹)和波束形成权值的问题,从而使一些基于sinr的度量在目的地最大化。我们采用的假设是,通道演变为一个随机过程,显示时空相关性。从本质上讲,最优中继定位需要在未来时间实例中所有候选位置的信道状态信息(CSI)的知识。这几乎是不可能实现的,因为通道随时间和空间而变化。尽管如此,由于通道表现出时空相关性(由阴影传播效应(gydF4y2Ba戈德史密斯,2005gydF4y2Ba;gydF4y2Ba麦卡特尼等人,2013gydF4y2Ba),在城市环境中是突出的),它可以或明或暗地预测。当涉及到离散继电器运动控制时,我们遵循两个不同的方向。gydF4y2Ba
第一个方向(gydF4y2BaKalogerias和Petropulu, 2018gydF4y2Ba;gydF4y2BaKalogerias and Petropulu, 2016gydF4y2Ba)(我们称之为基于模型的)涉及到计算波束形成权值和后续中继位置的随机程序的制定,以便在总中继功率预算的前提下,假设因果CSI信息的可用性,使目的地的一些基于sinr的度量最大化。这个两阶段问题等价于一组两阶段子问题,这些子问题可以以分布式的方式解决,每个继电器一个。每个子问题的目标是不可能被解析地评估,因此提出了一个有效的近似。这种近似是最初目标的替代。代理依赖于样本平均近似(SAA) (gydF4y2Ba夏皮罗等人,2009gydF4y2Ba).术语“基于模型”不要与基于模型的强化学习相混淆。我们之所以使用它,是因为这种方法(或者更确切地说是方向)假设完全了解通道的底层相关结构,因此从形式上来讲,将这种方法与第二种方法区分开来是有帮助的,第二种方法对通道统计信息没有做特别的假设。gydF4y2Ba
第二个方向(gydF4y2BaEvmorfos等人,2021agydF4y2Ba;gydF4y2BaEvmorfos等人,2021bgydF4y2Ba;gydF4y2BaEvmorfos等人,2022年gydF4y2Ba)从动态规划的角度解决了离散继电器运动控制问题。提出了由运动控制问题引出的马尔可夫决策过程(MDP)。最后,我们采用深度Q学习(gydF4y2BaMnih等人,2015年gydF4y2Ba),以寻找随时间在目的地最大sinr总和的中继运动策略。我们提出了一个管道来适应深度Q学习来解决手头的问题。我们的实验表明,多层感知器神经网络(MLPs)不能捕获自然信号(在低维域)中的高频成分。这种现象,简称为gydF4y2Ba“光谱偏见”gydF4y2Ba(gydF4y2BaJacot等人,2018年gydF4y2Ba)已经在一些情况下观察到,也出现了一个问题在深度Q学习适应继电器运动控制。我们提出了一种解决光谱偏差的方法,通过正弦表示网络(SIREN) (gydF4y2Ba西茨曼等人,2020年gydF4y2Ba).gydF4y2Ba
我们对这项工作的意图有两个方面。首先,我们尝试比较城市通信环境中两种中继运动控制方法。这两种方法构成了解决问题的两种不同观点。第一种方法假设完全了解通道的底层统计信息(基于模型)gydF4y2BaKalogerias and Petropulu (2018)gydF4y2Ba.第二种方法是完全无模型的,因为它放弃了对信道统计知识的所有假设,并采用深度强化学习来控制中继运动gydF4y2BaEvmorfos等人(2022)gydF4y2Ba.除了面对面的比较,我们提出了一个轻微的变化,无模型的方法,偏离了一个gydF4y2BaEvmorfos等人(2022)gydF4y2Ba通过添加时间步长作为额外的特征来增强状态。这种变化比之前的变化更稳健,特别是当城市环境的阴影成分特别强时。gydF4y2Ba
符号gydF4y2Ba:我们分别用大写粗体和小写粗体字母表示矩阵和向量。运营商gydF4y2Ba
而且gydF4y2Ba
分别表示移位和共轭移位。书法字母将被用来表示集合和正式的脚本字母将被用来表示gydF4y2BaσgydF4y2Ba代数。的gydF4y2BaℓgydF4y2BapgydF4y2Ba规范的gydF4y2Ba
是gydF4y2Ba
,对所有人gydF4y2Ba
.为gydF4y2Ba
,gydF4y2Ba
,gydF4y2Ba
将分别表示对称矩阵和对称正(半定)矩阵的集合。有限gydF4y2BaNgydF4y2Ba-维单位运算符将表示为gydF4y2Ba我gydF4y2BaNgydF4y2Ba.此外,我们定义gydF4y2Ba
,gydF4y2Ba
,gydF4y2Ba
,gydF4y2Ba
而且gydF4y2Ba
,为积极的天性gydF4y2BangydF4y2Ba>gydF4y2Ba米gydF4y2Ba.gydF4y2Ba
2问题的制定gydF4y2Ba
2.1系统模型gydF4y2Ba
考虑一个场景,其中sourcegydF4y2Ba
,位于位置gydF4y2Ba
,希望与用户沟通gydF4y2Ba
,位于gydF4y2Ba
但没有足够的能量这样做,或者由于地形,不能以视线(LoS)方式进行通信。因此,gydF4y2BaRgydF4y2Ba单天线,可信的移动中继被征募来支持通信。继电器部署在一个二维空间上,该空间被划分为gydF4y2Ba米gydF4y2Ba×gydF4y2Ba米gydF4y2Ba假想的网格单元格。时间是有时间间隔的,其中gydF4y2BaTgydF4y2Ba槽位持续时间,和gydF4y2BatgydF4y2Ba表示当前时隙。在每个时隙中,一个网格单元最多可被一个继电器占用。gydF4y2Ba
源gydF4y2Ba
传输的符号gydF4y2Ba
,在那里gydF4y2Ba
,用电gydF4y2Ba
.为了简便起见,让我们放弃继电器位置依赖于gydF4y2BatgydF4y2Ba.继电器接收到的信号gydF4y2BaRgydF4y2BargydF4y2Ba,位于gydF4y2BapgydF4y2BargydF4y2Ba(gydF4y2BatgydF4y2Ba),gydF4y2BargydF4y2Ba= 1,…gydF4y2BaRgydF4y2Ba,等于gydF4y2Ba
在哪里gydF4y2BafgydF4y2BargydF4y2Ba表示从的平坦衰落信道gydF4y2Ba
传递gydF4y2BaRgydF4y2BargydF4y2Ba,gydF4y2BangydF4y2BargydF4y2Ba(gydF4y2BatgydF4y2Ba)表示中继的接收噪音gydF4y2BaRgydF4y2BargydF4y2Ba,gydF4y2Ba
,gydF4y2BargydF4y2Ba= 1,…gydF4y2BaRgydF4y2Ba.gydF4y2Ba
每个继电器以放大转发(AF)方式工作,即,它发送接收到的信号,gydF4y2BaxgydF4y2BargydF4y2Ba(gydF4y2BatgydF4y2Ba),乘以重量gydF4y2Ba
.由于继电器同时传输,目的地gydF4y2Ba
接收gydF4y2Ba
在哪里gydF4y2BaggydF4y2BargydF4y2Ba表示来自继电器的平坦衰落信道gydF4y2BaRgydF4y2BargydF4y2Ba到目的地gydF4y2Ba
,gydF4y2Ba
表示接收噪音gydF4y2Ba
.我们假设gydF4y2Ba
ygydF4y2Ba(gydF4y2BatgydF4y2Ba)可重写为gydF4y2Ba
在哪里gydF4y2BaygydF4y2Ba信号gydF4y2Ba(gydF4y2BatgydF4y2Ba)为接收信号分量和gydF4y2Ba
表示目的地的噪声。gydF4y2Ba
在下面,我们将使用向量gydF4y2Ba
,以收集当时所有继电器的位置gydF4y2BatgydF4y2Ba.gydF4y2Ba
2.2渠道模型gydF4y2Ba
通道在时间和空间上演化,可以用统计术语来描述。特别是在时间段内gydF4y2BatgydF4y2Ba,源和位于的继电器之间的通道gydF4y2Ba
可建模为四个组成部分的乘积(gydF4y2Ba希斯,2017gydF4y2Ba),也就是说,gydF4y2Ba
在哪里gydF4y2Ba
路径损耗分量是否具有路径损耗指数gydF4y2BaℓgydF4y2Ba;gydF4y2Ba
阴影衰落分量;gydF4y2Ba
多径衰落分量;而且gydF4y2BaegydF4y2BajgydF4y2Ba2gydF4y2BaπϕgydF4y2Ba(gydF4y2BatgydF4y2Ba)gydF4y2Ba,gydF4y2BaϕgydF4y2Ba均匀分布在[0,1],为相项。中继目的地信道也有类似的模型gydF4y2BaggydF4y2BargydF4y2Ba(gydF4y2BapgydF4y2BargydF4y2Ba,gydF4y2BatgydF4y2Ba).gydF4y2Ba
的平方通道大小的对数gydF4y2Ba情商。gydF4y2Ba将乘法通道模型转换为加性通道模型,即:gydF4y2Ba
与gydF4y2Ba
在哪里gydF4y2BaηgydF4y2Ba2gydF4y2Ba是暗影的力量,还有gydF4y2Ba
分别为多径衰落分量的均值和方差。gydF4y2Ba
多径衰落分量,gydF4y2Ba
,在时间和空间上变化很快,通常被建模为不同位置和时间之间的i. I.D.。另一方面,阴影部分,gydF4y2Ba
,由信号路径中相对较大且缓慢移动的物体诱导,显示出任何两个位置之间的相关性gydF4y2BapgydF4y2Ba我gydF4y2Ba而且gydF4y2BapgydF4y2BajgydF4y2Ba,以及任意两个时间段之间gydF4y2BatgydF4y2Ba一个gydF4y2Ba而且gydF4y2BatgydF4y2BabgydF4y2Ba,如(gydF4y2BaKalogerias和Petropulu, 2018gydF4y2Ba)gydF4y2Ba
在哪里gydF4y2Ba
与gydF4y2BacgydF4y2Ba1gydF4y2Ba表示相关距离,和gydF4y2BacgydF4y2Ba2gydF4y2Ba相关时间。相似的相关性也适用于相似的情况gydF4y2Ba
.gydF4y2Ba
此外,gydF4y2Ba
而且gydF4y2Ba
显示相关性如下gydF4y2Ba
在哪里gydF4y2Ba
而且gydF4y2BacgydF4y2Ba3.gydF4y2Ba表示源-目的信道的相关距离(gydF4y2BaKalogerias和Petropulu, 2018gydF4y2Ba).gydF4y2Ba
2.3通信与控制的联合调度gydF4y2Ba
让我们假设所有通信任务都使用相同的载波,并采用基本的联合通信/决策tdma类协议。在每个时间段gydF4y2Ba
时,会采取以下行动:gydF4y2Ba
1.源向所有中继广播一个导频信号,中继据此估计到源的信道。gydF4y2Ba
2.目的地还广播飞行员,中继使用飞行员来估计相对于目的地的频道。gydF4y2Ba
3.然后,根据估计的信道,在对焦模式下进行中继波束形成。这里我们假设完美CSI估计。gydF4y2Ba
4.根据到目前为止接收到的CSI,决定继电器需要到达的位置,并确定继电器运动控制器将继电器引导到这些位置。gydF4y2Ba
以上步骤重复进行gydF4y2BaNgydF4y2BaTgydF4y2Ba时间槽。让我们假设中继通过专用的低速率通道将估计的CSI传递到目的地。这简化了目的地的信息解码(gydF4y2BaGao等人,2008gydF4y2Ba;gydF4y2Ba普罗基斯和萨利希,2008年gydF4y2Ba).gydF4y2Ba
关于继电器运动,我们假设继电器服从微分方程(gydF4y2BaKalogerias和Petropulu, 2018gydF4y2Ba)gydF4y2Ba
在哪里gydF4y2Ba
,gydF4y2Ba
作为继电器的运动控制器gydF4y2Ba
.假设继电器只能在确定其控制之后才可以移动,并且必须在下一个时隙开始之前完成它们的移动,我们可以写成(gydF4y2BaKalogerias和Petropulu, 2018gydF4y2Ba)gydF4y2Ba
与gydF4y2Ba
,以及在哪里gydF4y2Ba
而且gydF4y2BaugydF4y2BatgydF4y2Ba在每个时隙中,表示允许继电器移动的时间间隔,以及各自的继电器控制器gydF4y2Ba
.它是这样的gydF4y2Ba
,在那里gydF4y2BaτgydF4y2Ba属于第一gydF4y2BaNgydF4y2BaTgydF4y2Ba−1个时隙。在每个时间段gydF4y2BatgydF4y2Ba, Δ的长度gydF4y2BaτgydF4y2BatgydF4y2Ba,gydF4y2Ba
,必须足够小,以便相邻时隙的阴影相关性足够强。这些相关性是由参数控制的gydF4y2BaγgydF4y2Ba,可作为插槽宽度的函数。因此,继电器速度必须为的量级gydF4y2Ba
.为了简单起见,这里我们假设继电器在移动时不受资源限制,它们只受其传输功率的限制。gydF4y2Ba
确定继电器运动控制器gydF4y2Ba
,给定时隙的目标位置向量gydF4y2BatgydF4y2Ba,gydF4y2Ba
在美国,决定进入的路径就足够了gydF4y2Ba
,这样的点gydF4y2Ba
而且gydF4y2Ba
最多的时间是接通的吗gydF4y2Ba
.假设是最简单的路径,也就是一条直线gydF4y2Ba
而且gydF4y2Ba
,对所有人gydF4y2Ba
时槽处的继电器控制器gydF4y2Ba
是gydF4y2Ba
在此基础上,运动控制问题可以通过指定下一个时隙的继电器位置,给定当前时隙的继电器位置和估计的CSI来表述。为了简单起见,我们在这里假设存在某种路径规划和避碰机制,其推导超出了本文的范围。gydF4y2Ba
为了简单和易于处理,我们假设每个位置的通道都是相同的gydF4y2Ba在gydF4y2Ba每个网格单元格,并为每个时隙的持续时间。换句话说,我们实际上采用了agydF4y2Ba时空块衰落模型gydF4y2Ba至少在运动控制方面。随着网格单元的大小和时隙持续时间变得越来越小,这是对现实的有效近似,但代价是中继上更严格的资源约束和更快的信道传感能力。在这种设定下,gydF4y2Ba通信和中继控制确实可以同时进行gydF4y2Ba在每个时隙内,每个中继必须在下一个时隙开始时完成它们的运动(从前一个时隙开始-也参见本节前面的讨论-)。通过这种方式,我们的方法在实际环境中是有效的,因为通信需要持续和不间断。gydF4y2Ba
此外,我们假设中继移动足够慢,以至于由于中继运动本身造成的无线信道的局部空间和时间变化可以忽略不计,例如多普勒频移效应。然后,信道质量的空间和时间变化只是由于物理环境的变化,其发生的速度比实际通信慢得多。请注意,这是实现高通信速率的标准要求。gydF4y2Ba
我们看到在中继速度和通信信道的相对变化率之间有一种自然的相互作用gydF4y2BaKalogerias and Petropulu (2018)gydF4y2Ba.这里的挑战是在合理的中继速度、网格大小和时隙之间确定一个公平的权衡,这将同时实现忠实的信道预测和可行有效的运动控制(坚持潜在的中继运动约束)。通信时隙的宽度取决于地形的空间特征,每个应用程序都不同。这也决定了用于识别所采用的信道模型参数的采样率。理论上,对于给定的中继速度,中继可以移动到任何位置,直到信道保持相关。然而,由于通信的每个时隙速率取决于中继速度(表征系统吞吐量),因此中继应该在槽内移动到更小的距离。gydF4y2Ba
在下面我们使用gydF4y2Ba
为表示由继电器观测到的信道增益集,gydF4y2Ba沿着它们的轨迹gydF4y2Ba
,gydF4y2Ba
.然后,gydF4y2Ba
可以递归更新为gydF4y2Ba
,对所有人gydF4y2Ba
,gydF4y2Ba
.更确切地说,gydF4y2Ba
亦表示在继电器处观测到的CSI所产生的过滤,gydF4y2Ba沿着gydF4y2Ba
,可以互换使用。换句话说,gydF4y2Ba
表示信息(即gydF4y2BaσgydF4y2Ba-代数)生成的CSI观察到并包括时隙gydF4y2BatgydF4y2Ba而且gydF4y2Ba
,对所有人gydF4y2Ba
.根据惯例,我们定义gydF4y2Ba
(即,作为琐碎的gydF4y2BaσgydF4y2Ba代数gydF4y2Ba
),我们指的是时间gydF4y2BatgydF4y2Ba≡0,不如一个gydF4y2Ba虚拟时隙gydF4y2Ba.gydF4y2Ba
2.4目标信噪比空间控制最大化gydF4y2Ba
接下来,我们将介绍两阶段通用配方的第一阶段。该方法通过优化选择波束形成权值来优化网络QoSgydF4y2Ba而且gydF4y2Ba继电器位置,在一个gydF4y2Ba每个时间段gydF4y2Ba的基础上。在本小节中,我们将重点讨论波束形成权值的计算。对于随机规划(基于模型)方法和动态规划(无模型)方法,每一步的权重计算都是相同的。gydF4y2Ba
波束形成权值优化:时隙gydF4y2Ba
,gydF4y2Ba鉴于gydF4y2BaCSI的gydF4y2Ba
,我们将问题(gydF4y2BaHavary-Nassab等人,2008bgydF4y2Ba;gydF4y2Ba郑等,2009gydF4y2Ba)gydF4y2Ba
在哪里gydF4y2Ba
,gydF4y2Ba
而且gydF4y2Ba
分别表示继电器处的随机瞬时功率、信号分量的功率和目标处的干扰加噪声的功率,其中gydF4y2BaPgydF4y2BacgydF4y2Ba> 0为中继总发射功率预算。基于源CSI和目标CSI的相互独立性,(gydF4y2Ba情商。gydF4y2Ba)可表示为(gydF4y2BaHavary-Nassab等人,2008bgydF4y2Ba)gydF4y2Ba
在哪里,放弃对的依赖gydF4y2Ba
或gydF4y2BatgydF4y2Ba为简便起见,gydF4y2Ba
的优化问题gydF4y2Ba情商。gydF4y2Ba是gydF4y2Ba总是可行的,只要PgydF4y2BacgydF4y2Ba是负的gydF4y2Ba的最优值gydF4y2Ba情商。gydF4y2Ba可以用封闭形式表示为(gydF4y2BaHavary-Nassab等人,2008bgydF4y2Ba)gydF4y2Ba
对所有gydF4y2Ba
,可进一步写成(gydF4y2Ba郑等,2009gydF4y2Ba)gydF4y2Ba
上述最优值的解析表达式gydF4y2BaVgydF4y2BatgydF4y2Ba在中继位置及其相应的信道大小方面,将是我们后续发展的关键。gydF4y2Ba
近视继电器控制的随机规划gydF4y2Ba
在时间段内gydF4y2BatgydF4y2Ba−1、确定时间段的继电器位置gydF4y2BatgydF4y2Ba,使我们达到最大gydF4y2BaVgydF4y2BatgydF4y2Ba.然而,在时间槽gydF4y2BatgydF4y2Ba−1,我们只知道gydF4y2Ba
,其中不包括在时间段内将体验到的CSI信息gydF4y2BatgydF4y2Ba.因此,准确优化下一个时隙的中继位置似乎是一项不可能完成的任务。gydF4y2Ba
由于确定性优化gydF4y2BaVgydF4y2BatgydF4y2Ba关于gydF4y2Ba
是否可以在时间段内进行gydF4y2BatgydF4y2Ba−1,我们可以选择优化的投影gydF4y2BaVgydF4y2BatgydF4y2Ba所有可测量函数的空间gydF4y2Ba
Kalogerias and Petropulu (2018)gydF4y2Ba.因为,对于每一个gydF4y2Ba
,gydF4y2BaVgydF4y2BatgydF4y2Ba是有限方差的,我们可以考虑正交投影。换句话说,我们可以考虑的最小均方误差(MMSE)预测器gydF4y2BaVgydF4y2BatgydF4y2Ba根据现有的信息gydF4y2Ba
.然后我们可以优化gydF4y2Ba
关于这一点gydF4y2Ba
,则得到两阶段随机规划(gydF4y2Ba夏皮罗等人,2009gydF4y2Ba)gydF4y2Ba
在特定时段内解决gydF4y2Ba
,在那里gydF4y2Ba
继电器的初始位置和gydF4y2Ba
表示点周围的空间可行邻域gydF4y2Ba
为时隙确定的最优决策向量gydF4y2Ba
例如,gydF4y2Ba
可能是这样的,它不允许继电器相互碰撞,或与空间中的其他障碍物在它们的下一个槽位置。一般来说,gydF4y2Ba
取决于gydF4y2BatgydF4y2Ba,但在这里,为简单起见,没有显示依赖关系。gydF4y2Ba
地图gydF4y2Ba
通常被称为gydF4y2Ba有限值多功能gydF4y2Ba,我们写gydF4y2Ba
(gydF4y2Ba夏皮罗等人,2009gydF4y2Ba).此外,问题(4)和(3)被称为gydF4y2Ba第一阶段问题gydF4y2Ba和gydF4y2Ba阶段的问题gydF4y2Ba,分别(gydF4y2Ba夏皮罗等人,2009gydF4y2Ba).上述过程的框图显示在gydF4y2Ba图1gydF4y2Ba.gydF4y2Ba
与静态情况下的传统AF波束形成相比,我们上面描述的空间控制系统使用与静态情况下相同的CSI,在MMSE意义上预测其附近的最佳波束形成性能,并移动到最优选择的位置。本文的预测依赖于上述时空通道模型。当然,这需要相对于中继运动足够缓慢的变化通道,如果运动被限制在小步骤内,这是可以保证的。gydF4y2Ba
3.1运动策略&互换性原则gydF4y2Ba
协助理解解决过程中的技术gydF4y2BaEq。4gydF4y2Ba,我们记下一件重要的事gydF4y2Ba变分gydF4y2Ba的属性gydF4y2BaEq。4gydF4y2Ba,与gydF4y2Ba长期性能gydF4y2Ba所提出的空间控制波束形成系统。我们讨论的是所谓的gydF4y2Ba互换性原则gydF4y2Ba(gydF4y2BaBertsekas和Shreve, 1978gydF4y2Ba;gydF4y2BaBertsekas 1995gydF4y2Ba;gydF4y2BaRockafellar和Wets, 2004年gydF4y2Ba;gydF4y2Ba夏皮罗等人,2009gydF4y2Ba;gydF4y2BaKalogerias and Petropulu, 2017gydF4y2Ba),亦称gydF4y2Ba随机控制的基本引理gydF4y2Ba(gydF4y2BaAstrom 1970gydF4y2Ba;gydF4y2BaSpeyer和Chung, 2008gydF4y2Ba)gydF4y2BaKalogerias and Petropulu (2018)gydF4y2Ba.IP是指在一般随机程序中允许期望和最大值或最小值交换的条件。gydF4y2Ba
一个版本的IP为第一阶段的问题gydF4y2Ba(4)gydF4y2Ba成立于(gydF4y2BaKalogerias and Petropulu, 2017gydF4y2Ba)具体地说,IP意味着gydF4y2Ba(4)gydF4y2Ba由变分问题(gydF4y2BaKalogerias and Petropulu, 2017gydF4y2Ba)gydF4y2Ba
每一个都要解决gydF4y2Ba
.在比较gydF4y2Ba情商。gydF4y2Ba原来的问题gydF4y2BaEq。4gydF4y2Ba可以看出,前一个问题包括的优化gydF4y2Ba无条件的期望gydF4y2Ba的gydF4y2BaVgydF4y2BatgydF4y2Ba生成变量的所有(可测量的)映射gydF4y2Ba
来gydF4y2Ba
.这意味着,在gydF4y2Ba情商。gydF4y2Ba,gydF4y2Ba
是一个功能的所有CSI和运动控制,包括时隙gydF4y2BatgydF4y2Ba−1,ingydF4y2BaEq。4gydF4y2Ba,gydF4y2Ba
是一个gydF4y2Ba点gydF4y2Ba,因为所有变量生成gydF4y2Ba
是gydF4y2Ba在做决定前固定gydF4y2Ba.与文献一致,任何可行的决定gydF4y2Ba
在gydF4y2Ba情商。gydF4y2Ba将被称为(gydF4y2Ba容许gydF4y2Ba)gydF4y2Ba政策gydF4y2Ba,或gydF4y2Ba决策规则gydF4y2Ba.gydF4y2Ba可交换性gydF4y2Ba的gydF4y2Ba方程式。4gydF4y2Ba,gydF4y2Ba5gydF4y2Ba的最优值被理解为gydF4y2Ba情商。gydF4y2Ba,这是一个数字,与gydF4y2Ba期望gydF4y2Ba的最优值gydF4y2BaEq。4gydF4y2Ba的可测量函数gydF4y2Ba
(并且对生成的变量的每一个实现都进行了修正gydF4y2Ba
).换句话说,最大化就是gydF4y2Ba可互换的gydF4y2Ba通过整合,从某种意义上说”(gydF4y2BaKalogerias and Petropulu, 2017gydF4y2Ba)gydF4y2Ba
对所有gydF4y2Ba
,在那里gydF4y2Ba
表示(的可行决策集。gydF4y2Ba情商。gydF4y2Ba).此外,由于我们的假设,控制空间gydF4y2Ba
是有限的,则IP保证原始随机程序的最优解(gydF4y2BaEq。4gydF4y2Ba)也是可行的,因此,对于(gydF4y2Ba情商。gydF4y2Ba).gydF4y2Ba
3.2近最优波束形成器运动控制gydF4y2Ba
的问题是显而易见的gydF4y2Ba(4)gydF4y2Ba是可分的。假设,对于每一个gydF4y2Ba
,已作出的决定和收集的CSI到目前为止可提供给所有中继,gydF4y2Ba(4)gydF4y2Ba可以在继电器上以分布式的方式解决,使用gydF4y2Ba我gydF4y2Ba负责解决问题的继电器(gydF4y2BaKalogerias和Petropulu, 2018gydF4y2Ba)gydF4y2Ba
在每一个gydF4y2Ba
,在那里gydF4y2Ba
的对应部分gydF4y2Ba
,每个gydF4y2Ba
.gydF4y2Ba注意,继电器之间不需要局部交换中间结果;给定可用的信息,每个中继独立地解决自己的子问题。很明显,除了可行集有明显差异外,每个继电器上的优化问题是相同的。gydF4y2Ba
然而,目标问题gydF4y2BaEq。11gydF4y2Ba是不可能得到的分析,有必要诉诸一些良好的表现和计算效率gydF4y2Ba代理人gydF4y2Ba.接下来,我们展示gydF4y2Ba一个算法gydF4y2Ba这样的方法。所述方法依赖于gydF4y2Ba全球gydF4y2Ba函数逼近技术,并取得了优异的经验性能。gydF4y2Ba
对随机程序(11)提出的近似将基于以下技术上的,尽管简单的结果。gydF4y2Ba
引理1(远大期望)(gydF4y2BaKalogerias和Petropulu, 2018gydF4y2Ba)gydF4y2Ba在无线信道模型的假设下,这是真的,在任何gydF4y2Ba
,gydF4y2Ba
对所有gydF4y2Ba
,以及我们定义的位置gydF4y2Ba
与gydF4y2Ba米gydF4y2Ba1:gydF4y2BatgydF4y2Ba−1gydF4y2Ba,gydF4y2BaμgydF4y2Ba1:gydF4y2BatgydF4y2Ba−1gydF4y2Ba,gydF4y2Ba
,gydF4y2Ba
,gydF4y2Ba
,gydF4y2Ba
而且gydF4y2BaΣgydF4y2Ba1:gydF4y2BatgydF4y2Ba−1gydF4y2Ba定义为gydF4y2Ba(6)gydF4y2Ba,gydF4y2Ba(7)gydF4y2Ba,gydF4y2Ba(8)gydF4y2Ba,gydF4y2Ba(9)gydF4y2Ba,gydF4y2Ba(10)gydF4y2Ba分别为所有gydF4y2Ba
.更进一步,对于每一个选择gydF4y2Ba
,字段的条件相关性gydF4y2Ba
而且gydF4y2Ba
相对于gydF4y2Ba
可以用封闭形式表示为gydF4y2Ba
在任何gydF4y2Ba
对所有人来说gydF4y2Ba
.gydF4y2Ba
详细描述所提出的技术,有效地逼近我们的基本问题gydF4y2Ba(11)gydF4y2Ba现在。gydF4y2Ba
样本平均逼近(SAA):这是一个直接的蒙特卡罗方法,其中,gydF4y2Ba在最坏的情况下gydF4y2Ba的存在gydF4y2Ba采样,或伪采样机制在每个继电器gydF4y2Ba,能够从二元高斯测度中生成样本。然后我们可以观察到…的目的gydF4y2BaEq。11gydF4y2Ba可以代表,为所有gydF4y2Ba
,通过勒贝格积分为gydF4y2Ba
对于任何选择gydF4y2Ba
,在那里gydF4y2Ba
为二元高斯密度,带均值gydF4y2Ba
和协方差gydF4y2Ba
,和函数gydF4y2Ba
定义为gydF4y2Ba
对所有gydF4y2Ba
,在那里gydF4y2Ba
.通过简单的变量变换,这也是对的gydF4y2Ba
对所有gydF4y2Ba
而且gydF4y2Ba
.gydF4y2Ba
现在,对于每个接力gydF4y2Ba
,在gydF4y2Ba
对一些人来说gydF4y2Ba
,让gydF4y2Ba
是一个序列中的独立随机元素gydF4y2Ba
,以致于gydF4y2Ba
,对所有人gydF4y2Ba
.我们还假设所有这些序列都与信道场相互独立gydF4y2BaFgydF4y2Ba而且gydF4y2BaGgydF4y2Ba.然后,通过定义样本平均估计gydF4y2Ba
初始问题的SAAgydF4y2BaEq。11gydF4y2Ba表述为gydF4y2Ba
在继电器gydF4y2Ba
,求解于gydF4y2Ba
.SAA问题的详细分析gydF4y2BaEq。12gydF4y2Ba这超出了我们的讨论范围。不过,值得一提的是,集合的可行性gydF4y2BaEq。12gydF4y2Ba是有限的,因此它的最优解在收敛于原问题的最优解方面具有各种强渐近保证,如gydF4y2Ba年代gydF4y2Ba→gydF4y2Ba∞gydF4y2Ba.有关详情,请参阅(gydF4y2Ba夏皮罗等人(2009)gydF4y2Ba,第五章)。gydF4y2Ba
缺点是,计算SAA问题的目标gydF4y2BaEq。12gydF4y2Ba假设蒙特卡罗样本的可用性,这在某些情况下可能是限制性的。尽管如此,假设序列相互独立gydF4y2Ba
,每个gydF4y2Ba我gydF4y2Ba和每个gydF4y2BatgydF4y2Ba不是必需的。实际上,每个时隙可以为所有继电器生成一个序列,甚至更好,为所有继电器生成一个序列,总共为所有时隙生成一个序列。这样的抽样方案是合理的,原因有二。首先,所有SAAs的形式gydF4y2BaEq。12gydF4y2Ba对每个继电器和每个时隙独立求解。其次,蒙特卡罗抽样是通过构造在统计上独立于时空通道场gydF4y2BaFgydF4y2Ba而且gydF4y2BaGgydF4y2Ba.因此,这样的抽样方案放松了(实际上是消除了)在每个点上进行(伪)随机抽样的需要gydF4y2Ba个人gydF4y2Ba继电器。这使得它们在实际应用中特别有吸引力。gydF4y2Ba
在本文的其余部分中,我们将这种方法称为SAA。文中给出了SAA的控制流程gydF4y2Ba算法1gydF4y2Ba.gydF4y2Ba
4自适应离散继电器运动控制的深度强化学习gydF4y2Ba
4.1继电器运动控制的动态规划gydF4y2Ba
前面提到的方法从短视的角度解决了继电器运动控制问题,因为随机程序的制定是为了选择后续时隙的继电器位置,其目标是仅使该特定时隙在目的地的集体SINR最大化。gydF4y2Ba
将强化学习方法应用于离散继电器运动控制问题,需要将问题重新表述为一个动态规划。在这个设置中,我们想要的是时间槽gydF4y2BatgydF4y2Ba−1,导出运动策略(一种选择继电器位移的方法),以使的贴现和最大化gydF4y2BaVgydF4y2Ba我gydF4y2BaS(期望)从后续时间步长gydF4y2BatgydF4y2Ba到无限的地平线。gydF4y2Ba
为了正式提出这个程序,我们需要引入马尔可夫决策过程(MDP)。MDP是定义为的元组gydF4y2Ba
(gydF4y2Ba萨顿和巴托,2018年gydF4y2Ba):gydF4y2Ba
动态方案的制定如下:gydF4y2Ba
如果gydF4y2BaγgydF4y2Ba是折现因子,可将无限视距继电器控制问题表述为:gydF4y2Ba
在哪里gydF4y2BaugydF4y2Ba(gydF4y2BatgydF4y2Ba)为时刻t的控制(本质上决定继电器位移),驱动噪声gydF4y2BaWgydF4y2Ba(gydF4y2BatgydF4y2Ba)的分布为gydF4y2Ba
而且gydF4y2Ba
.gydF4y2BaΣgydF4y2BaCgydF4y2Ba是网格中所有单元格的所有通道(源和目标)的协方差矩阵。所述协方差矩阵显式定义在(gydF4y2BaKalogerias and Petropulu, 2017gydF4y2Ba),如果通道按照2.2中定义的时空高斯过程演化,则承认特定的形式。gydF4y2Ba
现在,上述问题定义的MDP或POMDP都依赖于历史记录gydF4y2Ba
.特别是,如果gydF4y2Ba
是由每个时隙的整个状态向量生成的,那么很容易看到这个问题gydF4y2BaEq。13gydF4y2Ba是完全可观察到的,因为由环境产生的所有CSI可供继电器利用,以决定后续的位移。gydF4y2Ba
另一方面,如果gydF4y2Ba
是由中继决策和轨迹的局部观测产生的,那么问题是什么呢gydF4y2BaEq。13gydF4y2Ba变得部分可见。具体来说,部分可观测性可以被认为是一个动态的观测选择过程,它只揭示了与每个中继的轨迹相关的CSI,而将CSI的其余部分隐藏在决策过程中。gydF4y2Ba
4.2离散继电器运动控制的深度Q学习gydF4y2Ba
采用深度Q学习进行中继运动控制,无需对通道的底层相关结构进行特殊假设。gydF4y2Ba
考虑到(12),可以推断,我们可以构建一个由所有代理/中继的集体经验学习的单一策略,它构成了所有中继的运动严格遵守的单一策略。本着这种精神,我们实例化一个神经网络来参数化状态-动作值函数(Q),它正在所有中继的经验上进行训练。动议政策是gydF4y2BaϵgydF4y2Ba-贪婪的关于Q函数的估计。gydF4y2Ba
最初,我们采用深度Q学习算法,如(gydF4y2BaMnih等人,2015年gydF4y2Ba),并在gydF4y2Ba图2gydF4y2Ba.尽管如此,正如我们在前一小节中指出的那样,MDP的状态是继电器位置的级联gydF4y2BapgydF4y2Ba=gydF4y2Ba年代gydF4y2Ba还有频道gydF4y2BafgydF4y2Ba(gydF4y2BapgydF4y2Ba,gydF4y2BatgydF4y2Ba),gydF4y2BaggydF4y2Ba(gydF4y2BapgydF4y2Ba,gydF4y2BatgydF4y2Ba),我们在采用深度Q学习时采用了稍微不同的方法。特别地,神经网络的输入是位置的拼接gydF4y2BapgydF4y2Ba= (gydF4y2BaxgydF4y2Ba,gydF4y2BaygydF4y2Ba]和时间步长gydF4y2BatgydF4y2Ba.在这一点上,我们应该注意到,用转换的时间戳来增加神经网络输入是当前工作中提出的算法和中提出的解决方案之间的区别gydF4y2BaEvmorfos等人(2022)gydF4y2Ba.这种替代方案虽然对实现影响不大,但在阴影功能很强的情况下提供了可衡量的改进。奖励gydF4y2BargydF4y2Ba为各时间步内中继对目的地信噪比的贡献(gydF4y2BaVgydF4y2Ba我gydF4y2Ba).在每个时隙,继电器选择一个动作gydF4y2Ba
.gydF4y2Ba
一般来说,具有丰富函数逼近器(如神经网络)的Q学习需要一些启发式的稳定性。第一个这样的启发式是gydF4y2Ba经验重播gydF4y2Ba(gydF4y2BaMnih等人,2015年gydF4y2Ba).每个元组的经验为一次接力,即gydF4y2Ba
我们把这种记忆称为经验重放。对于神经网络更新,我们从经验重放中统一采样一批经验,并使用该批经验执行梯度下降来估计Q函数(以及随后的决策策略)。gydF4y2Ba
第二个启发是gydF4y2Ba目标网络gydF4y2Ba(gydF4y2BaMnih等人,2015年gydF4y2Ba).目标网络(gydF4y2Ba问gydF4y2Ba目标gydF4y2Ba(gydF4y2Ba年代gydF4y2Ba”,gydF4y2Ba一个gydF4y2Ba”;gydF4y2BaθgydF4y2Ba−gydF4y2Ba的更新提供了对目标(标签)的估计gydF4y2Ba政策网络gydF4y2Ba(gydF4y2Ba问gydF4y2Ba政策gydF4y2Ba(gydF4y2Ba年代gydF4y2Ba”,gydF4y2Ba一个gydF4y2Ba”;gydF4y2BaθgydF4y2Ba+gydF4y2Ba)),即用于估计Q函数的网络。这两个网络共享(通常)相同的体系结构。我们不使用任何优化方案更新目标网络的权重,但是,在预定义数量的训练步骤之后,策略网络的权重被复制到目标网络。这为权重更新提供了固定目标,并使Q函数逼近的任务更接近监督学习范式。gydF4y2Ba
因此,在每个更新步骤中,我们从经验回放中采样一批经验,并使用这批经验对损失执行梯度下降:gydF4y2Ba
在每一步,政策网络的权重根据以下内容更新:gydF4y2Ba
在那里,gydF4y2Ba
的参数gydF4y2BaλgydF4y2Ba是学习率。的参数gydF4y2BaγgydF4y2Ba标量是gydF4y2Ba折现系数gydF4y2Ba而且gydF4y2Baγ在gydF4y2Ba(0,1).贴现因子的选择涉及到分配给长期奖励的重要性和分配给短期奖励的重要性之间的权衡。的参数gydF4y2Ba一个gydF4y2Ba,gydF4y2Ba
对应于当前状态期间选择的操作和为下一个状态(下一个时间段的状态)选择的操作。同时,gydF4y2Ba年代gydF4y2Ba而且gydF4y2Ba年代gydF4y2Ba’分别对应当前状态和下一状态。中定义了深度Q学习算法的通用管道gydF4y2Ba图3gydF4y2Ba.gydF4y2Ba
当继电器移动时(它们不会连续两个插槽停留在同一个网格单元中),它们需要额外的能量消耗。但在某些情况下,对邻近网格单元的位移并不对应于在目的地累积SINR方面的显著改善。因此,考虑到应用所消耗的能量,我们选择不执行gydF4y2BaϵgydF4y2Ba-贪婪的政策直接对估计gydF4y2Ba问gydF4y2Ba政策gydF4y2Ba(gydF4y2Ba年代gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba;gydF4y2BaθgydF4y2Ba+gydF4y2Ba)的Q函数,但我们降低了所有动作的估计值gydF4y2Ba一个gydF4y2Ba,除了动作gydF4y2Ba
这一比例很小gydF4y2BaμgydF4y2Ba.通过这种方式,如果该动作不对应于累积奖励总和(SINR)期望的显著增加,则我们禁止继电器位移。这个位移动作应该有多重要,才会被执行,这与选择有关gydF4y2BaμgydF4y2Ba.对于我们的模拟,在后面的部分中,我们选择gydF4y2BaμgydF4y2Ba1%。gydF4y2Ba
4.3 Q函数参数化的正弦表示网络gydF4y2Ba
最近有许多工作令人信服地声称,基于坐标的多层感知器神经网络(mlp),即将坐标向量映射到低维自然信号的mlp,无法学习所述信号的高频成分。这构成了一种现象,在机器学习文献中被称为光谱偏差(gydF4y2BaJacot等人,2018年gydF4y2Ba;gydF4y2Ba曹等,2019gydF4y2Ba).工作在(gydF4y2Ba西茨曼等人,2020年gydF4y2Ba)研究了mlp光谱偏置的改进方法。通过引入传统MLP架构的一种变化,在层之间引入正弦(sin(⋅))作为激活函数,绕过了MLP对于这种归纳偏差的不足。它的MLP替代方案被称为gydF4y2Ba正弦表示网络gydF4y2Ba(SIRENs),并且在理论上和实验上都表明,可以有效地解决光谱偏差。gydF4y2Ba
正弦函数是一个周期函数,在神经网络中作为激活函数的选择是非典型的。作者在(gydF4y2Ba西茨曼等人,2020年gydF4y2Ba)提出采用权重初始化框架,使训练过程中保留激活分布,并在网络振荡的情况下实现收敛。gydF4y2Ba
特别是,如果我们假设神经网络的中间层有输入gydF4y2Ba
,则输出是利用权值的仿射变换gydF4y2BawgydF4y2Ba通过正弦波激活,因此输出为gydF4y2Ba
.由于该层不是网络的第一层,所以输入gydF4y2BaxgydF4y2Ba是arcsin分布的。根据这些假设,结果显示在(gydF4y2Ba西茨曼等人,2020年gydF4y2Ba)的元素gydF4y2BawgydF4y2Ba,即gydF4y2BawgydF4y2Ba我gydF4y2Ba,从均匀分布初始化gydF4y2Ba
,然后gydF4y2Ba
作为gydF4y2BangydF4y2Ba生长。因此,应该初始化所有中间层的权重gydF4y2Ba
.第一层的神经元使用标量超参数进行初始化gydF4y2BaωgydF4y2Ba0gydF4y2Ba,使第一层的输出,sin (gydF4y2BaωgydF4y2Ba0gydF4y2Ba的天气gydF4y2Ba+gydF4y2BabgydF4y2Ba)跨越[−1,1]的多个周期。gydF4y2BaWgydF4y2Ba是一个矩阵,其元素对应于第一层的权值。gydF4y2Ba
当我们采用深度Q学习方法进行离散继电器运动控制时,我们基本上训练了一个神经网络(MLP)从坐标中学习一个低维自然信号,即状态-动作值函数gydF4y2Ba问gydF4y2Ba(gydF4y2Ba年代gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba).Q函数,gydF4y2Ba问gydF4y2Ba(gydF4y2Ba年代gydF4y2Ba,gydF4y2Ba一个gydF4y2Ba),表示在无限的时间范围内,继电器期望在目的地实现的SINR之和,从各自的位置开始gydF4y2Ba年代gydF4y2Ba以及执行动作gydF4y2Ba一个gydF4y2Ba.策略网络作为一个坐标MLP可能无法收敛底层Q函数的高频成分,这是由于通道表现出非常突然的时空变化。gydF4y2Ba
因此,我们建议策略和目标网络都是siren。文中给出了该算法的控制流程gydF4y2Ba算法2gydF4y2Ba.我们将其标记为DQL-SIREN,它代表gydF4y2Ba基于正弦表示网络的深度Q学习gydF4y2Ba.gydF4y2Ba
5仿真gydF4y2Ba
我们通过模拟20 × 20米的网格来测试我们提出的方案。所有网格单元格都是1gydF4y2Ba米gydF4y2Ba×1gydF4y2Ba米gydF4y2Ba.辅助单个源目标通信对的代理/中继的数量为gydF4y2BaRgydF4y2Ba= 3。对于每个时隙,每个继电器的位置在网格区域的边界内受到约束,并且还受到约束,以坚持预定的继电器运动优先级。每个时隙只能有一个继电器占用网格单元。中继/代理的中心与各自网格单元的中心重合。gydF4y2Ba
当涉及到我们假设的通道模型的阴影部分时,我们定义了一个阈值gydF4y2BaθgydF4y2Ba它量化了时间和空间上的距离,其中阴影分量很重要,可以考虑到运动策略的构建。我们假设跟踪能力gydF4y2BaηgydF4y2Ba2gydF4y2Ba= 15,自相关距离为gydF4y2BacgydF4y2Ba1gydF4y2Ba= 10gydF4y2Ba米gydF4y2Ba自相关时间为gydF4y2BacgydF4y2Ba2gydF4y2Ba= 20gydF4y2Ba证券交易委员会gydF4y2Ba.在中继点和目的地处的噪声方差固定为gydF4y2Ba
.源和目的是固定的gydF4y2Ba
而且gydF4y2Ba
.gydF4y2Ba
每个继电器可移动1个网格格/时隙,每个网格格大小为1gydF4y2Ba米gydF4y2Ba×1gydF4y2Ba米gydF4y2Ba(如前所述)。时间段长度设置为0.6gydF4y2Ba证券交易委员会gydF4y2Ba.因此,每个中继的通道计算和移动决定所占用的时间应该严格小于时间间隔的持续时间。gydF4y2Ba
5.1 DQL-SIREN和SAA规格gydF4y2Ba
对于DQL-SIREN,我们对策略和目标网络都使用了siren。每个SIREN由三个密集的层组成(每层350个神经元),学习速率为1gydF4y2BaegydF4y2Ba−4。gydF4y2Ba
经验重放的大小是3000元组,我们在开始训练所有深度Q学习方法之前,从一个完全随机的策略派生出300个过渡开始每个实验。的gydF4y2BaϵgydF4y2Ba的gydF4y2BaϵgydF4y2Ba-greedy策略初始化为1,但它会稳步下降直到0.1,这是RL中非常典型的情况。这是处理RL中探索和开发之间的困境的一种非常简单的方法,我们首先强调探索,然后逐渐将探索转换为开发。每100步训练,我们将策略网络的权重复制到目标网络的权重。批大小被选择为128(即使这些方法对于从64到512的不同批大小可靠地工作)和折扣因子gydF4y2BaγgydF4y2Ba选择为0.99。我们要提到的是小的值gydF4y2BaγgydF4y2Ba转化为一个更短视的代理(一个以牺牲长期/延迟奖励为代价,赋予短期奖励重要性的代理)。另一方面,的价值gydF4y2BaγgydF4y2Ba接近1的代理会给长期奖励和短期奖励赋予几乎相同的价值。对于我们提出的深度Q学习方法,我们注意到对于较低的值gydF4y2BaγgydF4y2Ba收敛和性能受到阻碍,我们将其归因于Q学习和神经网络使用的相互作用,而不是底层MDP的性质。gydF4y2Ba
我们设置了gydF4y2BaωgydF4y2Ba0gydF4y2Ba将DQL-SIREN设为5(对于该参数的不同值,算法的性能具有鲁棒性)。最后,我们使用Adam优化器来更新网络权重。gydF4y2Ba
对于SAA,实验的样本量设置为150。gydF4y2Ba
5.2综合数据和模拟gydF4y2Ba
我们创建符合2.2中描述的通道统计数据的合成CSI数据。gydF4y2Ba
在gydF4y2Ba图4gydF4y2Ba,我们绘制了通过所有三个中继合作实现的目的地平均SINR (dB级),每集100集,其中每集由30个步骤组成。源的传输功率为gydF4y2BaPgydF4y2Ba年代gydF4y2Ba= 57gydF4y2BadbmgydF4y2Ba继电器的传输功率预算为gydF4y2BaPgydF4y2BaRgydF4y2Ba= 57gydF4y2BadBmgydF4y2Ba.假设的通道参数设置为gydF4y2BaℓgydF4y2Ba= 2.3,gydF4y2BaρgydF4y2Ba= 3,gydF4y2BaηgydF4y2Ba2gydF4y2Ba= 15,gydF4y2Ba
,gydF4y2BacgydF4y2Ba1gydF4y2Ba= 10,gydF4y2BacgydF4y2Ba2gydF4y2Ba= 20,gydF4y2BacgydF4y2Ba3.gydF4y2Ba= 0.5。在中继点和目的地处的噪声方差为gydF4y2Ba
.gydF4y2Ba
我们为整个网格(20,×, 20)生成3,000 = 100,×, 30个源中继和中继目的地通道实例。每30个时间步,我们将继电器初始化到网格中的随机位置,并让它们移动。我们绘制算法每30步的平均SINR。gydF4y2Ba
5.3仿真结果与讨论gydF4y2Ba
我们将模拟结果呈现在gydF4y2Ba图4gydF4y2Ba.如前所述,结果与目的地100集的平均SINR相对应。每集由30个时间步组成。这些运行量对应于六种不同种子的平均值。gydF4y2Ba
我们比较三种不同的政策。第一个是随机策略,每个继电器随机选择下一步的位移。第二个策略是DQL-SIREN,它解决动态程序(的贴现和的最大化)gydF4y2BaVgydF4y2Ba我gydF4y2BaS表示从当前时间步长到无限视界的每个继电器)。第三种策略是短视的SAA,它对应于随机规划,并优化每个单独的中继gydF4y2BaVgydF4y2Ba我gydF4y2Ba用于后续插槽。gydF4y2Ba
可以看到,SAA和DQL-SIREN的性能都比Random策略好得多(它们的平均SINR都约为7gydF4y2BadbgydF4y2Ba相比之下,随机策略可以达到大约4gydF4y2BadbgydF4y2Ba).gydF4y2Ba表1gydF4y2Ba包含SAA和DQL-SIREN方法关于一些定性和定量特征的正面比较。gydF4y2Ba
DQL-SIREN算法的收敛速度比SAA算法快。这是合理的,因为当涉及到SAA方法时,前五集没有收集到足够的样本(150个)。SAA和DQL-SIREN在平均SINR方面表现大致相同。实验接近尾声时,两者之间有一个小差距(SAA的表现略好)。这可以归因于gydF4y2BaϵgydF4y2Ba-贪婪策略的DQL-SIREN,其中gydF4y2BaϵgydF4y2Ba永远不会变成零(游戏邦注:在一小段时间内选择一个随机行动去维持探索)。gydF4y2Ba
在模拟的基础上,我们可以得出一些有趣的推论。首先,尽管SAA是短视的,只是试图最大化后续时间段的SINR,但从平均SINR的聚合统计量的意义上来说,它的效果相当好。这清楚地表明,对于公式问题,贪婪转化为累积奖励意义上的充分表现。gydF4y2Ba
当然,这种特性只有在信道的统计信息完全已知并且在操作期间没有显著变化的情况下才成立。显然,在这种情况下,延迟奖励现象并不普遍。gydF4y2Ba
6结论gydF4y2Ba
在本文中,我们研究了移动继电器的离散运动控制,以促进源和目的之间的通信。我们比较两种不同的方法来解决这个问题。第一种方法采用随机规划方法对继电器运动进行调度。这种方法是短视的,这意味着它寻求最大化目的地的SINR,只在随后的时间段。此外,随机规划方法对信道演化的统计进行了具体的假设。第二种方法是深度强化学习方法,它不是短视的,这意味着它的目标是最大化从后续插槽到无限时间范围的目的地SINR的贴现和。此外,第二种方法对信道统计信息没有做特别的假设。我们在合成的信道数据中测试我们的方法,这些数据是根据一个已知的时空变化的信道模型产生的。这两种方法的性能相似,并取得了显著的改善相比,一个标准随机策略的继电器运动。我们还提供了关于各种关键定性和定量特征的两种方法的正面比较。 As future work, we plan on extending the current methods for scenarios with multiple source-destination communication pairs and, possibly, include the existence of eavesdroppers.
数据可用性声明gydF4y2Ba
支持本文结论的原始数据将由作者提供,毫无保留地提供。gydF4y2Ba
作者的贡献gydF4y2Ba
所有列出的作者都对该工作做出了实质性的、直接的和智力上的贡献,并批准了其出版。gydF4y2Ba
资金gydF4y2Ba
由ARO在W911NF2110071授权下支持的工作。gydF4y2Ba
利益冲突gydF4y2Ba
作者声明,这项研究是在没有任何商业或财务关系的情况下进行的,这些关系可能被解释为潜在的利益冲突。gydF4y2Ba
出版商的注意gydF4y2Ba
本文中所表达的所有主张仅代表作者,并不代表他们的附属组织,也不代表出版商、编辑和审稿人。任何可能在本文中评估的产品,或可能由其制造商提出的声明,都不得到出版商的保证或认可。gydF4y2Ba
参考文献gydF4y2Ba
阿斯特罗姆,K. J.(1970)。gydF4y2Ba随机控制理论导论“,gydF4y2Ba, 70年。纽约:gydF4y2Ba学术出版社gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
Barriac, G., Mudumbai, R.和Madhow, U.(2004)。“传感器网络中信息传输的分布式波束形成”,见gydF4y2Ba第三届传感器网络信息处理国际研讨会,2004gydF4y2Ba(gydF4y2BaIEEEgydF4y2Ba), 81 - 88。doi: 10.1145/984622.984635gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
贝尔采卡斯,D.(1995)。gydF4y2Ba动态规划与最优控制“,gydF4y2Ba.第四版。二世。贝尔蒙特,麻萨诸塞州:gydF4y2Ba雅典娜的科学gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
贝尔采卡斯,史瑞夫,S. E.(1978)。gydF4y2Ba随机最优控制:离散时间情况gydF4y2Ba, 23岁。纽约:gydF4y2Ba学术出版社gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
曹勇,方哲,吴勇,周达- x。(2019)。理解深度学习的光谱偏差。gydF4y2BaarXiv预印arXiv:1912.01198gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
Chatzipanagiotis, N., Liu, Y., Petropulu, A.和Zavlanos, m.m.(2014)。多源多目的地集群系统中的分布式协同波束形成。gydF4y2BaIEEE反式。信号的过程。gydF4y2Ba62年,6105 - 6117。doi: 10.1109 / tsp.2014.2359634gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Evmorfos, S., Diamantaras, K.和Petropulu, A. (2021a)。基于傅里叶特征映射的移动中继波束形成网络深度Q学习,见gydF4y2Ba2021 IEEE第22届无线通信信号处理进展国际研讨会gydF4y2Ba(gydF4y2BaSPAWCgydF4y2Ba), 126 - 130。doi: 10.1109 / SPAWC51858.2021.9593138gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Evmorfos, S., Diamantaras, K.和Petropulu, A. (2021b)。基于梯度偏置的移动中继波束形成网络的双深度Q学习,见gydF4y2Ba2021年第55届Asilomar信号、系统和计算机会议gydF4y2Ba, 742 - 746。doi: 10.1109 / ieeeconf53345.2021.9723405gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Evmorfos, S., Diamantaras, K., Petropulu, A.(2022)。移动中继网络运动策略的强化学习。gydF4y2BaIEEE反式。信号的过程。gydF4y2Ba70年,850 - 861。doi: 10.1109 / TSP.2022.3141305gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
高峰,崔涛,纳拉纳坦,A.(2008)。放大与前向中继网络信道估计与最优训练设计。gydF4y2BaIEEE反式。Wirel。Commun。gydF4y2Ba7, 1907 - 1916。doi: 10.1109 / TWC.2008.070118gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
戈德史密斯(2005)。gydF4y2Ba无线通信gydF4y2Ba.gydF4y2Ba剑桥大学出版社gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
Havary-Nassab, V., Shahbazpanahi, S., Grami, A.和zhiquan Luo, Z.-Q.。(2008)。基于信道状态信息二阶统计量的中继网络分布式波束形成。gydF4y2BaIEEE反式。信号的过程。gydF4y2Ba56岁,4306 - 4316。doi: 10.1109 / tsp.2008.925945gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Havary-Nassab, V., ShahbazPanahi, S., Grami, A.和zhiquan Luo, Z.-Q.。(2008 b)。基于信道状态信息二阶统计量的中继网络分布式波束形成。gydF4y2BaIEEE反式。信号的过程。gydF4y2Ba56岁,4306 - 4316。doi: 10.1109 / TSP.2008.925945gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
希斯,R. W.(2017)。gydF4y2Ba无线数字通信导论:信号处理的观点gydF4y2Ba.gydF4y2Ba新世纪gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
Jacot, A., Gabriel, F., and Hongler, C.(2018)。《神经切核:神经网络中的收敛和泛化》,见gydF4y2Ba神经信息处理系统研究进展gydF4y2Ba.编辑S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi和R. Garnett (gydF4y2Ba柯伦联合公司gydF4y2Ba)。31。gydF4y2Ba
谷歌学者gydF4y2Ba
Kalogerias, d.s., Chatzipanagiotis, N., Zavlanos, m.m., and Petropulu, a.p.(2013)。合作网络中保密率最大化的移动干扰器,见gydF4y2Ba声学、语音与信号处理(ICASSP), 2013 IEEE国际会议gydF4y2Ba, 2901 - 2905。doi: 10.1109 / ICASSP.2013.6638188gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Kalogerias, d.s., Petropulu, a.p.(2016)。“移动波束形成放大器;空间控制中继通信”,见gydF4y2Ba2016 IEEE声学、语音与信号处理国际会议(ICASSP)gydF4y2Ba, 6405 - 6409。doi: 10.1109 / ICASSP.2016gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Kalogerias, d.s., Petropulu, a.p.(2017)。空间控制中继波束形成:两阶段最优策略。gydF4y2BaArxivgydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
Kalogerias, d.s., Petropulu, a.p.(2018)。空间控制中继波束形成。gydF4y2BaIEEE反式。信号的过程。gydF4y2Ba66年,6418 - 6433。doi: 10.1109 / tsp.2018.2875896gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
李,J., Petropulu, a.p., Poor, h.v.(2011)。基于信道状态信息二阶统计量的中继网络协同传输gydF4y2BaIEEE反式。信号的过程。gydF4y2Ba59岁,1280 - 1291。doi: 10.1109 / TSP.2010.2094614gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
刘,Y.和Petropulu, a.p.(2011)。多源-目的对放大前向中继网络的求和问题。gydF4y2BaIEEE反式。Wirel。Commun。gydF4y2Ba10日,3732 - 3742。doi: 10.1109 / twc.2011.091411.101523gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
麦卡特尼,张俊杰,聂世峰,拉帕波特,t.s.(2013)。城市微蜂窝中5G毫米波传播信道的路径损耗模型gydF4y2BaGlobecomgydF4y2Ba, 3948 - 3953。doi: 10.1109 / glocom.2013.6831690gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
Muralidharan, A.和Mostofi, Y.(2017)。“移动机器人连接的第一通道距离”,见gydF4y2Ba美国控制会议论文集gydF4y2Ba(gydF4y2BaIEEEgydF4y2Ba), 1517 - 1523。doi: 10.23919 / ACC.2017.7963168gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
普罗基斯,J. G.和萨利希,M.(2008)。gydF4y2Ba数字通信gydF4y2Ba.gydF4y2Ba麦格劳-希尔gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
Rockafellar, r。T。和Wets, r。j。- b。(2004)。gydF4y2Ba变分分析gydF4y2Ba, 317年。gydF4y2Ba施普林格科学与商业媒体gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
夏皮罗,A.,登切娃,D., ruszczyzynski, A.(2009)。gydF4y2Ba随机规划讲座gydF4y2Ba.第二版。gydF4y2Ba工业与应用数学学会gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
西茨曼,V.,马特尔,J.,伯格曼,A.,林德尔,D.和韦茨斯坦,G.(2020)。具有周期激活函数的隐式神经表示。gydF4y2Ba神经导过程。系统。gydF4y2Ba33岁,7462 - 7473。gydF4y2Ba
谷歌学者gydF4y2Ba
施佩尔(2008)。gydF4y2Ba随机过程,估计与控制gydF4y2Ba.gydF4y2Ba暹罗gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
萨顿,r.s.,巴托,a.g.(2018)。gydF4y2Ba强化学习:简介gydF4y2Ba.gydF4y2Ba麻省理工学院出版社gydF4y2Ba.gydF4y2Ba
谷歌学者gydF4y2Ba
严,Y.和莫斯托菲,Y.(2013)。资源约束和衰落环境下机器人操作通信与运动规划的协同优化。gydF4y2BaIEEE反式。Wirel。Commun。gydF4y2Ba12日,1562 - 1572。doi: 10.1109 / twc.2013.021213.120138gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
严,Y.和莫斯托菲,Y.(2012)。机器人路由器在现实通信环境中的形成。gydF4y2BaIEEE反式。机器人。gydF4y2Ba28日,810 - 827。doi: 10.1109 / TRO.2012.2188163gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba
郑国强,黄国强。,P一个ulraj, A., and Ottersten, B. (2009). Collaborative-Relay Beamforming with Perfect CSI: Optimum and Distributed Implementation.IEEE信号处理。列托人。gydF4y2Ba16, 257 - 260。doi: 10.1109 / LSP.2008.2010810gydF4y2Ba
CrossRef全文gydF4y2Ba|gydF4y2Ba谷歌学者gydF4y2Ba