上一层的输出特征在哪里ℓ−1<我nline-formula id="inf36">
,作为当前层的输入ℓ生成层的输出特征l,Xℓ.回想一下,第一层的输入是X0年代up>=X(Eq。6).最后一层的输出特征<我nline-formula id="inf37">
,得到了通过K-hop通信,表示防御方交换和融合的信息D.
4.2.4候选匹配
GNN的输出,它表示融合的信息从K-hop通信,然后与另一个MLP进行处理,为每个防御者提供一个候选匹配。图3显示一个候选匹配实例if<我nline-formula id="inf38">
.给一个防守者D我,我们发现<我nline-formula id="inf39">
最近的入侵者,从1到编号<我nline-formula id="inf40">
顺时针方向旋转。顺时针为附近的入侵者编号的主要原因是解释来自我们的网络的特征输出,以确定哪些入侵者将与哪些防御者匹配。我们可以逆时针或者任意顺序编号。由于每个防御者都学习去中心化策略,因此它需要根据其本地感知指定要捕获的入侵者。入侵者没有全局id,所以在不失去通用性的情况下,我们简单地顺时针分配id。多层感知器的输出是一个赋值似然<我nline-formula id="inf41">
的概率<我nline-formula id="inf42">
入侵者候选人与给定防御者匹配的可能性。例如,专家分配可能性<我nline-formula id="inf43">
为D我在图3如果第三个入侵者(即,一个3.年代ub>)与D我通过专家策略(即最大匹配)。计划模块选择入侵者候选一个j这样匹配的一对(D我,一个j)将极有可能与专家政策相似。值得注意的是,我们的方法给出了一个去中心化的分配策略,只交换相邻的信息。
4.2.5排列等价
值得注意的是,由于排列等价,我们提出的基于gnn的学习方法是可扩展的。这意味着给定一个去中心化的防御者,它应该能够根据由任意数量的无编号入侵者组成的局部感知来决定行动。以一个周界防御游戏为例说明了这一性质图4.故事情节集中在一个防御者身上,随着时间的推移,入侵者逐渐接近边界。相同的入侵者在不同的时间戳上被涂成相同的颜色。注意一个新的浅蓝色入侵者进入防守者的视野t= 2时,一个紫色的入侵者开始出现t= 3。虽然每次检测到的入侵者数量是任意的,但我们的系统将入侵者的id显示为中蓝色数字图4.我们顺时针给它们编号,但在任何排列中(例如逆时针)都可以做不同的事情,因为图神经网络执行与标签无关的处理。编号的原因是指定哪些入侵者将与来自网络输出的哪些防御者匹配。在不丧失通用性的情况下,我们顺时针分配id,但我们注意到这些id是任意的,因为id可以在不同的戳记上更改。例如,黄色入侵者ID是2 att= 1,但变成3t= 2,3。类似地,红色入侵者ID为3 att= 1,但改为4t= 2和5在t= 3。这样,我们可以容纳任意数量的入侵者,因此我们的系统是置换等效的。