利索能及
我要发布
收藏
专利号: 2022107186260
申请人: 广东工业大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于深度强化学习的芯片全局自动布局方法,其特征在于,包括以下步骤:S1、输入芯片布局信息;

S2、对芯片布局信息进行预处理,其中包括设计规则;

S3、进行芯片局部布局的强化学习,得到最优的芯片局部布局信息;

S4、判断步骤S3得到的最优的芯片局部布局信息是否满足设计规则,若满足,则进入步骤S5,否则返回步骤S3再次进行芯片局部布局的强化学习;

S5、结合最优的芯片局部布局信息进行芯片全局自动布局的深度强化学习,得到最优的芯片全局自动布局信息;

S6、依据步骤S5得到的最优的芯片全局自动布局信息进行填充布局,得到最优的芯片全局自动布局效果;

S7、判断步骤S6得到的最优的芯片全局自动布局效果是否满足设计规则,若满足,则采用该最优的芯片全局自动布局信息进行芯片全局自动布局,否则返回步骤S5继续进行芯片全局自动布局的深度强化学习。

2.根据权利要求1所述的基于深度强化学习的芯片全局自动布局方法,其特征在于,对布局信息进行预处理,包括:S2‑1网格预处理:设置网格为正方形并建立直角坐标系,其横轴为x,纵轴为y,在网格中,边用e表示,边与边之间的布线容量用ce表示,记第i个格子G的中心点信息为Gi={xi,yi,cei},设置网格数;

S2‑2、宏单元预处理:把每一个宏单元视为矩形,利用快速排序算法对宏单元进行大小排序,并以此排序的结果组成排序序列集合作为输入集:H={Si,i=1,...,N}

其中,Si=(Li,Wi,Pi)为元组,表示带有位置信息的宏单元的面积,Li表示宏单元的长,Wi表示宏单元的宽,Pi表示宏单元的位置信息,即Pi={xi,yi},N表示宏单元的总数;

S2‑3、标准单元预处理:将标准单元分为两种单元簇:

1)依附宏单元Hi的标准单元为依附型标准单元簇,记作Bi,则Bi={bi1,bi2,…,bin};

2)不依附宏单元的标准单元为散件型标准单元簇,记作B,则B={b1,b2,...,bn}:S2‑4、设计规则。

3.根据权利要求2所述的基于深度强化学习的芯片全局自动布局方法,其特征在于,强化学习局部布局,包括:S3‑1、向布局区域输入宏单元序列H={Si,i=1,...,N}及其依附型标准单元簇Bi={bi1,bi2,…,bin},并以集合簇的形式随机散放;

S3‑2、针对每一个宏单元Si及其随机放置的依附型标准单元簇Bi利用静电系统局部布局模型初始布局,使依附型标准单元簇Bi进行分散移动,使得宏单元Si与依附型标准单元簇Bi整体静电平衡,形成初始的局部布局信息序列状态S;

S3‑3、从静电系统局部布局模型初始布局后得到的初始布局信息状态S中提取特征信息,令该特征信息为φ(S),输入到Actor‑critic强化学习网络中,经过网络训练,得到最优的布局策略,根据最优布局策略输出一个最优的初始局部布局,输出最优策略对应的Actor网络参数θ和Critic参数ω;

S3‑4、用矩形将该单元模块进行规范化得到宏单元模块,令其长为LN,宽为WN,面积为SN,输出的信息序列为:HN={SN1,SN2,..,SNn}

其中,SN={LN,WN,PN},LN为更新模块的长,WN为更新模块的宽,PN为该模块的位置信息。

4.根据权利要求3所述的基于深度强化学习的芯片全局自动布局方法,其特征在于,所述步骤S3‑3中,具体的设定和步骤如下:S3‑3‑1、马尔可夫决策:

1)状态S:静电系统局部布局模型形成的初始的局部布局信息序列状态,包括宏单元信息Si及其依附型标准单元簇Bi的长和宽及其在网格中的位置信息;

2)动作集合A:所有标准单元可能采取的动作的集合;

3)衰减因子γ:设置γ为1,表示所有的后续状态和当前奖励一致;

4)探索率∈:使用∈‑贪婪法进行价值迭代,即设置一个较小的∈值,使用1‑∈的概率贪婪地选择目前认为是最大行为价值的行为,而用∈的概率随机的从所有m个可选行为中选择行为;用公式表示为:其中,a表示动作,s表示为状态;

S3‑3‑2、约束设定;

S3‑3‑3、损失函数设定;

S3‑3‑4、更新网络参数,得到Actor网络参数θ、Critic网络参数ω以及策略梯度估计

5.根据权利要求4所述的基于深度强化学习的芯片全局自动布局方法,其特征在于,所述约束设定包括:

1)线长约束:

采用半周长线长,其最接近斯坦纳树,布线的最低成本,其计算公式为:HPWL(i)=(maxb∈i{xb}‑minb∈i{xb})+(maxb∈i{yb}‑minb∈i{yb})其中xb和yb表示网格i的x和y坐标,对HPWL(i)进行求和,其目的是为了提升线长模型的收敛速度以及对指标评判的精度,用归一化因子q将宏单元和标准单元之间的总线长之和进行归一化,其归一化后的总线长公式如下所示:目标之一是要使得HPWL越小越好,Netlist表示线网;

2)拥塞约束:

采用基于最大溢出方式作为拥塞度量来评价布局是否可布通性;最大溢出方式表示为:OF(e)=max(ωe+be‑ce,0);为了使得网格边界的溢出容易被相邻区域吸收,保证设计的可布线性,则使用如下拥塞评价公式:congestion(e)=100×(ωe+be)/ce其中ce为边e的最大容量,be为边e上的布线拥塞,ωe为边e上的布线占用,拥塞小于

50%视为可布通,目标要使得拥塞程度越小越好;

3)密度约束:对于密度约束,设计空间利用率函数应用在局部布局中,具体设计如下:根据排序好的宏单元及限制规则以及空间利用率函数F对宏单元S1和宏单元S2进行组合,计算组合后的空间利用率F,当空间利用率达到预设的要求,即将宏单元进行合并;其中设置的规则为:待合并宏模块单元S1的信息为:长L1,宽W1,位置为P1,面积S1=L1×W1;

待合并宏模块单元S2的信息为:长L2,宽W2,位置为P2,面积S2=L2×W2;

组合成新的宏模块单元SN:长为LN,宽为WN,位置为PN,面积SN=LN×WN;

其中LN和WN满足下面的规则:

max(LN,WN)≤min(L,W)

为了使得策略网络不将宏单元放置在会导致密度超过目标密度最大值或导致宏重叠的位置,则宏单元的布局满足如下的面积约束:空间利用率函数为:

其中,L为长度,W为宽度,目标要使得空间利用率F越大越好。

6.根据权利要求5所述的基于深度强化学习的芯片全局自动布局方法,其特征在于,所述损失函数设定包括:

1)奖励函数R设定:把总线长、拥塞程度、浪费率进行加权求和合成一个单目标的奖励函数,其中加权因子λ1和λ2主要用于权衡三个指标的影响,则用于策略网络优化的奖励函数如下R=‑Wirelength‑λ1Congestion+λ2FS.t.minS≤SN≤maxS

其中,Wirelength表示总线长,Congestion表示总拥塞程度,F表示空间利用率,λ1和λ2分别是拥塞程度和空间利用率所占的权重,0≤λ1≤1,0≤λ2≤1,λ1+λ2=1且λ1>λ2,表示的是拥塞的占比权重比损失率的权重高,即首要保证布线的可布通性,再考虑面积的利用率;

2)损失函数设定:

设置优化的函数目标;设定优化目标为每一时间步的平均价值,即对该式子的θ求导后的梯度如下:

为要进行优化的策略梯度估计; 为分值函数,指出参数更新的方向,其使用的是Softemax策略函数,以及使用描述状态和行为的特征φ(s,a)与参数θ的线性组合来权衡一个行为发生的几率,即:通过求导得分值函数为:

7.根据权利要求6所述的基于深度强化学习的芯片全局自动布局方法,其特征在于,所述步骤S3‑3‑4包括:输入迭代次数T,状态维度n,动作集合A,步长α,衰减因子γ,探索率∈,Critic网络结构和Actor网络结构;

更新过程包括:

A1、随机初始化所有的状态和动作对应的价值Q,i=1;

A2、初始化S为当前状态序列的第一个状态,得到特征向量φ(s);

A3、在Actor网络中使用φ(s)作为输入,输出动作集合A,基于动作集合A得到新的状态S′,反馈R;

A4、在Critic网络中分别使用φ(s),φ(s′)作为输入,得到Q值输出V(S),V(S′);

A5、计算TD误差δ=R+γV(S′)‑V(S);

A6、V与Q转换:

A7、计算策略梯度估计:

2

A8、使用均方差损失函数∑(R+γV(S′)‑V(S,ω)) 作为Critic网络参数ω的参数更新;

A9、更新Actor网络参数θ:

A10、判断i是否小于迭代次数T,若是,则i=i+1,并返回步骤A2,否则输出最新的Critic网络参数ω、Actor网络参数θ以及策略梯度估计

8.根据权利要求7所述的基于深度强化学习的芯片全局自动布局方法,其特征在于,所述步骤S5包括:S5‑1、设计两层网络结构,分别为公共网络和局部网络;公共网络包括Actor网络和Critic网络两部分的功能;

S5‑2、计算各局部布局的梯度估计 并累计求和,并将得到的各个局部布局最优的Critic网络参数ω、Actor网络参数θ输入到公共网络中;

S5‑3、使用得到的累积梯度估计更新公共网络,更新过程中,若收敛,则输出对应的最优策略,否则返回步骤S5‑2;

S5‑4、通过最优策略对更新的宏模块HN进行布局,最终完成全局自动布局,更新的模块信息序列为HNN,并输出全局自动布局信息HNN。

9.根据权利要求8所述的基于深度强化学习的芯片全局自动布局方法,其特征在于,所述步骤S6包括:S6‑1、将全局自动布局信息HNN输入到力导向法解析器中;

S6‑2、利用力导向的方法把散件型标准单元簇B={b1,b2,...,bn}进行填充,通过引力和斥力不断作用,使得散件型标准单元bi在不断移动之后趋于平衡,直至不再发生相对位移,能量不断消耗,最终趋于零;

S6‑‑3、输出最优的芯片全局自动布局效果。