利索能及
我要发布
收藏
专利号: 2020100647816
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种医疗影像分类方法,其特征在于,所述方法包括:

样本选取步骤:利用预先建立的主动学习框架从未标注医疗影像样本集中选取至少一个目标医疗影像样本,其中,所述主动学习框架的查询策略由预定强化学习模型提供;

将选取的所述目标医疗影像样本发送给标注专家,以便在由标注专家进行标注后,接收从标注专家返回的经过标注的所述目标医疗影像样本,并将经过标注的所述目标医疗影像样本输入至医学影像分类模型,以对所述医学影像分类模型进行训练;

若对所述医学影像分类模型的训练不满足预定条件,则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练,利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略,并转至样本选取步骤,直至对所述医学影像分类模型的训练满足预定条件,得到训练后的所述医学影像分类模型,其中,所述预定条件为停止对所述医学影像分类模型的训练的条件;

当获取到待分类的医疗影像数据,将所述待分类的医疗影像数据输入至所述训练后的所述医学影像分类模型,以得到由所述训练后的所述医学影像分类模型返回的分类结果。

2.根据权利要求1所述的方法,其特征在于,所述预定强化学习模型为Actor-Critic框架,所述Actor-Critic框架包括智能体和环境,所述智能体包括Actor神经网络、Critic神经网络,所述环境当前处于第一状态,每次通过如下方式训练所述预定强化学习模型:获取第一状态的特征向量,作为第一特征向量;

将所述特征向量输入至所述Actor神经网络,获取所述智能体本次要执行的动作;

对智能体施加所述本次要执行的动作,以得到所述环境转换为的第二状态和所述环境反馈的回报;

获取所述第二状态的特征向量,作为第二特征向量,并将所述第二特征向量和所述第一特征向量分别输入至所述Critic神经网络,得到所述Critic神经网络输出的与所述第一特征向量对应的第一价值和与所述第二特征向量对应的第二价值;

基于所述回报和所述第二价值利用如下公式获取对所述智能体当前时刻起能够获得的总回报的估计,作为总回报估计:其中, 为所述总回报估计,rt+1为所述回报,γ为衰减因子,Vφ(st+1)为所述第二价值,st+1为所述第二状态,φ为所述Critic神经网络的参数;

根据所述总回报估计和所述第一价值,利用如下表达式梯度更新所述Critic神经网络的参数:其中, 为所述总回报估计,Vφ(st)为所述第一价值;

根据所述总回报估计和所述第一价值,利用如下公式更新所述Actor神经网络的参数:其中,st为所述第一状态,at为所述本次要执行的动作,θ为所述Actor神经网络的参数,πθ(at|st)为所述智能体根据所述第一状态选择出所述本次要执行的动作所使用的策略,α为系数。

3.根据权利要求1所述的方法,其特征在于,所述预定强化学习模型为Asynchronous Advantage Actor-Critic框架,所述Asynchronous Advantage Actor-Critic框架包括公共智能体和多个工作者智能体,所述公共智能体包括公共Actor神经网络和公共Critic神经网络,每一所述工作者智能体包括一个Actor神经网络和一个Critic神经网络,每一所述工作者智能体位于独立的线程中并与独立的环境进行交互,目标工作者智能体为位于目标线程的工作者智能体,训练所述预定强化学习模型时,目标工作者智能体的训练过程包括:分别将当前时间和当前迭代次数置为1并将所述目标工作者智能体的Actor神经网络的梯度更新量和Critic神经网络的梯度更新量置为0;

执行参数同步步骤,所述参数同步步骤包括:分别将所述公共智能体的公共Actor神经网络的参数和公共Critic神经网络的参数同步至目标线程,分别作为所述目标工作者智能体的Actor神经网络的参数和Critic神经网络的参数;

初始化与所述目标工作者智能体进行交互的环境的当前状态;

执行动作确定步骤,所述动作确定步骤包括:获取所述当前状态的向量,并将所述向量输入至所述目标工作者智能体的Actor神经网络,得到所述目标工作者智能体本次要执行的动作;

对目标工作者智能体施加所述本次要执行的动作,以得到所述与目标工作者智能体进行交互的环境转换为的第二状态和所述环境反馈的回报;

分别将所述当前时间和所述当前迭代次数加1;

若当前状态为终止状态或所述当前时间序列与初始时间序列的差值等于预定时间差值阈值,则继续进行下列步骤,否则转至执行动作确定步骤;

基于所述Critic神经网络的参数和所述当前状态利用如下公式计算当前时间的价值:其中,st为当前状态,V(st,w′)为所述目标工作者智能体的Critic神经网络的参数为w′且当前状态为非终止状态时,所述Critic神经网络根据当前状态st对应确定出的价值,0为在当前状态是终止状态的情况下,所述Critic神经网络确定出的价值;

基于所述当前时间序列的价值针对所述当前时间之前的每一时刻执行参数更新步骤,所述参数更新步骤包括:利用如下公式计算本时刻的价值:

Q(s,i)=ri+γQ(s,i+1),

其中,Q(s,i)为本时刻的价值,ri为本时刻所获得的回报,Q(s,i+1)为下一时刻的价值,γ为衰减因子;

利用如下公式对所述目标工作者智能体的Actor神经网络的参数进行梯度更新:

其中,dθ为所述目标工作者智能体的Actor神经网络的参数更新梯度,θ′为所述目标工作者智能体的Actor神经网络的参数,πθ′(si,ai)为所述目标工作者智能体根据本时刻的状态si选择出要执行的动作ai所使用的策略, 为所述目标工作者智能体的Actor神经网络的分值函数, 为策略π的熵项,c为所述熵项的系数;

利用如下公式对所述目标工作者智能体的Critic神经网络的参数进行梯度更新并结束对本时刻的参数更新步骤:其中,dw为所述Critic神经网络的参数更新梯度;

基于所述目标工作者智能体的Actor神经网络和Critic神经网络在所述当前时间之前的每一时刻的参数更新梯度,利用如下公式对对应时刻的所述公共智能体的公共Actor神经网络和公共Critic神经网络的参数进行更新;

若所述当前迭代次数超过预定迭代次数阈值,则输出所述公共智能体的公共Actor神经网络和公共Critic神经网络的参数,否则转至所述参数同步步骤。

4.根据权利要求1所述的方法,其特征在于,所述预定强化学习模型为Asynchronous Advantage Actor-Critic框架,所述Asynchronous Advantage Actor-Critic框架包括公共智能体和多个工作者智能体,所述公共智能体和每一工作者智能体均包括卷积层、全连接层和附加模块,其中,每一智能体中的卷积层和附加模块均与该智能体的全连接层相连,其中:所述公共智能体的卷积层用于接收各工作者智能体发送的数据,并向该公共智能体的全连接层输出提取的特征数据;

所述工作者智能体的卷积层用于接收环境提供的数据,并向该工作者智能体的全连接层对应输出提取的特征数据;

所述附加模块至少获取标注专家对所述目标医疗影像样本的标记工作量和所述医学影像分类模型对验证集的输出精度,并向与该附加模块相连的全连接层输出性价比参数;

所述全连接层用于接收与该全连接层相连的附加模块发送的性价比参数和卷积层发送的特征数据,并对应输出处理结果。

5.根据权利要求1所述的方法,其特征在于,事先建立了医疗影像验证集,所述医疗影像验证集包括多个经过准确标注的医疗影像数据,所述获取对所述医学影像分类模型的训练结果,包括:将医疗影像验证集中的医疗影像数据输入至所述医学影像分类模型,得到所述医学影像分类模型输出的分类结果;

将所述分类结果与对应的各医疗影像数据的标注进行比对,得到与每一医疗影像数据对应的比对结果;

基于所述比对结果确定所述医学影像分类模型的分类精度,作为对所述医学影像分类模型的训练结果。

6.根据权利要求5所述的方法,其特征在于,所述比对结果为一致和不一致中的任意一项,所述基于所述比对结果确定所述医学影像分类模型的分类精度,作为对所述医学影像分类模型的训练结果,包括:确定所述医疗影像验证集中的医疗影像数据的数目,作为第一数目;

确定所述比对结果为一致的医疗影像数据的数目,作为第二数目;

获取所述第一数目与所述第二数目的比值作为所述医学影像分类模型的分类精度,并将所述分类精度作为对所述医学影像分类模型的训练结果。

7.根据权利要求1所述的方法,其特征在于,在将选取的所述目标医疗影像样本发送给标注专家,以便在由标注专家进行标注后,接收从标注专家返回的经过标注的所述目标医疗影像样本,并将经过标注的所述目标医疗影像样本输入至医学影像分类模型,以对所述医学影像分类模型进行训练之后,所述方法还包括:获取所述标注专家对所述目标医疗影像样本的评分;

所述若对所述医学影像分类模型的训练不满足预定条件,则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练,利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略,并转至样本选取步骤,直至对所述医学影像分类模型的训练满足预定条件,得到训练后的所述医学影像分类模型,包括:若对所述医学影像分类模型的训练不满足预定条件,则获取对所述医学影像分类模型的训练结果并基于所述训练结果和对所述目标医疗影像样本的评分对所述预定强化学习模型进行训练,利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略,并转至样本选取步骤,直至对所述医学影像分类模型的训练满足预定条件,得到训练后的所述医学影像分类模型。

8.一种医疗影像分类装置,其特征在于,所述装置包括:

样本选取模块,被配置为执行样本选取步骤,所述样本选取步骤包括:利用预先建立的主动学习框架从未标注医疗影像样本集中选取至少一个目标医疗影像样本,其中,所述主动学习框架的查询策略由预定强化学习模型提供;

发送模块,被配置为将选取的所述目标医疗影像样本发送给标注专家,以便在由标注专家进行标注后,接收从标注专家返回的经过标注的所述目标医疗影像样本,并将经过标注的所述目标医疗影像样本输入至医学影像分类模型,以对所述医学影像分类模型进行训练;

训练模块,被配置为若对所述医学影像分类模型的训练不满足预定条件,则获取对所述医学影像分类模型的训练结果并基于所述训练结果对所述预定强化学习模型进行训练,利用训练后的所述预定强化学习模型更新所述主动学习框架的查询策略,并转至样本选取步骤,直至对所述医学影像分类模型的训练满足预定条件,得到训练后的所述医学影像分类模型,其中,所述预定条件为停止对所述医学影像分类模型的训练的条件;

输入模块,被配置为当获取到待分类的医疗影像数据,将所述待分类的医疗影像数据输入至所述训练后的所述医学影像分类模型,以得到由所述训练后的所述医学影像分类模型返回的分类结果。

9.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至7中任一项所述的方法。

10.一种电子设备,其特征在于,所述电子设备包括:

处理器;

存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至7任一项所述的方法。