利索能及
我要发布
收藏
专利号: 2025101703159
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于相似性代理辅助的演化神经架构搜索方法,其特征在于,包括以下步骤:步骤1,初始化一个架构种群,执行演化,并通过真实评估获取全部个体的真实性能,选择性能最佳的一个架构作为初始基准架构;同时,将全部个体及个体对应的性能数据保存为训练集;

步骤2,设计基于相似性的图卷积网络的传输与聚合策略,构建一种图神经网络变体,作为特征提取器,将搜索空间中的架构映射至特征空间中,用于学习和提取架构的特征表示;

步骤3,采用孪生神经网络框架构建代理模型,利用特征提取器获得的架构嵌入特征计算架构间的相似性,并通过联合损失函数训练代理模型;

步骤4,基于当前种群中的架构生成候选架构,利用代理模型预测候选架构与基准架构之间的相似度,作为个体的适应度;根据适应度值保留高潜力架构,并对高潜力架构进行真实性能评估,将评估结果加入训练集;同时,将当前种群与代理模型预测筛选出的高性能架构合并,通过环境选择策略更新种群;

步骤5,重复步骤3和步骤4直至种群性能收敛,最终输出全局最优架构;将所述全局最优架构用于图像识别任务;

步骤1中,通过随机采样策略从搜索空间中选取N个架构作为初始种群P0,N表示种群大小;随后,通过真实评估获取每个架构的真实性能值,所有已评估的架构及性能值记录至架构池Dtrain,表示为:其中,真实评估是指将每个架构对应的神经网络在目标数据集上进行完整的训练与验证,记录每个架构对应的神经网络在验证集上的分类准确率作为性能值;(Arci,Yi)表示第i个架构的记录对,Arci表示第i个架构,Yi表示第i个架构对应的性能值,Num是架构池中架构的总数;从架构池Dtrain中选取性能值最高的N个架构作为当前种群 并将性能最优的架构设定为初始基准架构Arcbest;

在步骤2中,将每个架构表示为图结构数据,采用有向无环图G的形式表示为G={V,E},其中顶点V代表架构对应的神经网络的层级节点,每个层级节点对应一种操作,边E表示层级之间的连接关系;将图的节点特征矩阵X和邻接矩阵A输入到由图卷积网络和多层感知器构成的图神经网络变体中进行处理,实现架构的特征提取,所述图卷积网络用于提取节点特征,所述多层感知器用于提取结构特征;

步骤2具体包括如下步骤:

步骤2.1,基于图卷积网络捕获节点特征:

通过引入相似性度量的方法,改进图卷积网络的静态传输与聚合规则,以捕获节点间特征的相关性,基于相似性聚合策略的图卷积网络更新公式为:(l)

其中 是节点i在第l层的节点特征向量,σ是非线性激活函数,Wi 表示节点i在第l层的可学习权重矩阵, 表示第l层从节点j到节点i的传输矩阵,矩阵 通过第i个节点特征hi与第j个节点特征hj的余弦相似度 乘以i节点与j节点的邻接关系Aij计算得到,∥hi∥2表示节点特征hi的欧几里得范数,表示矩阵转置;邻居集合表示 节点i 在第 l层 的在 聚合过 程中 保留 的k 个邻 居索引 值,定义 为ik表示参与节点i特征聚合的第k个索引值,θ∈[0,

1]是相似度阈值,根据所有 计算分布的均值和标准差设定,只保留相似度高于阈值θ的邻居节点进行聚合计算;

步骤2.2,基于多层感知器捕获结构特征:

将邻接矩阵A展平为一维向量xA=flatten(A),并输入至多层感知器以捕获结构特征,flatten表示将矩阵按行优先展平为一维向量的操作,多层感知器的特征传播公式为:其中, 表示第l层隐藏层输出的结构特征向量,且初始输入 是第l(l)

层的权重矩阵,用于实现线性变换,b 为第l层的偏置项;

为实现节点特征与结构特征的联合表征,将图卷积网络与多层感知器的输出进行线性组合,公式为:(l)

其中,H 是第l层的节点特征向量矩阵, 是第l层的结构特征向量矩阵,β∈[0,1]是一个可学习参数,用于动态平衡节点特征与结构特征对嵌入学习的贡献, 是第l层的特征向量矩阵;

最终,将特征提取器的输出 展平为一维向量 Emb即所捕获的架构特征向量,L是特征提取器的总层数;

步骤3包括:

步骤3.1,划分相似性标签,制作训练数据集:

对于架构池Dtrain中的架构,按照两两组合的方式生成样本对,总计得到Sum个样本对,Sum=(Num‑1)×(Num)/2,构成代理模型的训练数据集其中,yij是两个样本Arci,和Arcj的相似性标签,对于样本对{(Arci,Yi),(Arcj,Yj)},性能差ΔY定义为ΔY=Yi‑Yj,则相似度similarity的计算方法为:当ΔY≥0时,

当ΔY<0时,

其中e表示自然常数;如果similarity大于阈值,表示两个样本Arci,Arcj的特性相似;

否则表示两个样本Arci,Arcj的特性不相似;

如果两个样本Arci,Arcj的特性相似,则yij=1表示正样本对;如果两个样本Arci,Arcj的特性不相似,则yij=0表示负样本对;

步骤3.2,搭建代理模型:

采用孪生神经网络作为代理模型Model,代理模型Model包括两个结构和参数完全共享的分支子网络;所述分支子网络由步骤2中定义的特征提取器构成,包括用于提取节点特征的图卷积网络和用于提取结构特征的多层感知器;

将样本对{(Arci,Yi),(Arcj,Yj)}中的两个样本(Arci,Yi)和(Arcj,Yj)分别输入两个分支子网络,得到第i个样本(Arci,Yi)的特征向量Embi和第j个样本(Arcj,Yj)的特征向量Embj,计算Embi和Embj的余弦相似度Dij作为预测的适应度值,表示架构Arci和架构Arcj的相似程度:步骤3.3,训练代理模型:

利用训练数据集Data,基于联合损失函数 计算损失值,通过反向传播算法更新代理模型的可训练参数,重复步骤3.3直至代理模型收敛;λ∈[0,1]是一个可学习参数;

其中,相似性损失 M表

示样本对总数,margin为调节负样本对距离的阈值;max表示取最大值函数;

回归损失 其中 表示与当前架构相似度高于

阈值τ的前k个提前训练好的样本的索引值集合, τ是相

似度阈值;Yi是第i个样本的真实性能值。

2.根据权利要求1所述的方法,其特征在于,步骤4包括:

步骤4.1,采用基于简单路径的交叉变异算子,生成候选架构;

步骤4.2,基于代理模型预测更新种群。

3.根据权利要求2所述的方法,其特征在于,步骤4.1包括:步骤4.1.1,通过轮盘赌策略从当前种群中随机选择两个架构作为父代架构,分别用有向无环图表示,并对节点按拓扑排序进行编号;

步骤4.1.2,分别对父代架构的有向无环图进行深度优先遍历,以生成所有从输入节点到输出节点的简单路径,从而构成独立路径集合;随后,基于随机选择策略,从两个父代架构的独立路径集合中分别随机采样路径,构成子代架构的路径集合;

步骤4.1.3,根据节点编号对子代架构路径集中的节点进行合并,将具有相同编号的节点视为同一节点,统一入边与出边的连接关系,形成完整的拓扑结构,从而得到子代架构的有向无环图表示;

步骤4.1.4,分别从两个父代架构中提取操作类型序列:按节点编号顺序依次遍历每个节点并记录节点对应的操作类型,构成两个父代架构操作类型序列;随后,初始化一个与父代架构操作类型序列大小相同的空序列,作为子代架构的操作类型序列,用于存储子代架构各操作的操作类型;为空序列的第一个位置与最后一个位置分别填入输入、输出操作;对于空序列中的其余位置,依次遍历,并在每个位置随机选择一个父代操作类型序列中对应位置的操作类型,将操作类型填入子代架构的操作类型序列中;

步骤4.1.5,基于子代架构的有向无环图表示和和对应的操作类型序列,形成完整的子代架构;对新形成的子代架构进行约束条件检查,如果不满足搜索空间定义的约束条件,则舍弃当前架构;如果满足,则保留当前架构;

步骤4.1.6,重复步骤4.1.2~步骤4.1.5,直至生成预定义数量S的候选架构集合

4.根据权利要求3所述的方法,其特征在于,步骤4.2包括:步骤4.2.1,将候选架构集合Inds和基准架构Arcbest一同输入至已训练好的代理模型Model,生成候选架构的特征向量集合 和基准架构的特征向量Embbest;

步骤4.2.2,基于特征向量之间的余弦相似度计算候选架构与基准架构的相似度:其中,cosine(Embi,Embbest)是第i个样本的特征向量Embi和基准架构的特征向量Embbest之间的余弦相似度;对于每个候选架构,cosine(Embi,Embbest)表示第i个架构Arci的个体预测性能值;

步骤4.2.3,依据个体预测性能值对候选架构进行降序排序,选择前K个候选架构,进行真实评估,得到已知精度的架构集合 将架构集合 加入训练集中,更新为

步骤4.2.4,将代理模型预测得到的高性能架构集合 与当前种群合并,得到新的架构集合 根据架构的真实性能值Yi,选择

前N个性能最佳的架构,更新种群

5.根据权利要求1~4任一项所述的方法实现的基于相似性代理辅助的演化神经架构搜索系统,其特征在于,包括:基于图神经网络变体的特征提取器:用于提取神经网络架构的潜在特征,将复杂的神经网络架构表示映射至低维、紧凑的特征空间,从而高效表征架构间的差异性与相似性;

基于相似性评估策略的代理模型:用于学习架构间的相似程度;通过预测候选架构与基准架构的相似度值,作为候选架构的适应度指标,从而筛选出具有潜在高性能的架构;

基于简单路径分解的架构生成器:用于高效生成大量候选新架构,最大化搜索空间的多样性,以充分挖掘潜在高性能神经网络架构,进而加速演化搜索过程。

6.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述的方法的步骤。