1.一种自动驾驶视觉推理认知方法,其特征在于,包括:
获取自动驾驶场景下的图像和图像对应的问题文本;
根据图像和图像对应的问题文本,采用人脑视觉通路模型,获得图像和问题文本对应的答案;
其中,人脑视觉通路模型的工作过程为:
采用视网膜模型将图像转换成脉冲信号,采用外侧膝状体模型对脉冲信号进行整合,采用视觉皮层V1模型,对外侧膝状体模型的输出信号进行多通道的特征提取,并对不同通路输出的特征进行编码,采用视觉皮层V2模型对对编码的特征进行进一步提取,获得多样性编码后的图像;其中,在视觉皮层V1模型中,在接收外侧膝状体模型的输出时,向外侧膝状体模型发出反馈脉冲,用以调整外侧膝状体模型输出层的发射速率;
对多样性编码后的图像进行特征提取,根据提取的特征,获得图像中每个对象的特征图;
采用视觉皮层V4模型和视觉皮层V3模型,分别对多样性编码后的图像中的对象节点和对象节点间的关系进行提取,根据对象节点和对象节点见的关系,生成场景图,采用视觉皮层V5模型对问题文本进行动作解析,采用顶内沟模型对动作解析结果进行规划,根据规划结果和场景图,生成场景图的有向序列,根据场景图的有向序列,采用下颞叶皮层模型进行场景图上的游走溯因,获得图像中每个对象的最终认知结果;
采用前额叶模型对最终认知结果进行推理,获得图像和问题文本对应的答案;
其中,人脑视觉通路模型中的各模型用以仿照视觉通路的各个大脑皮层、且采用神经元模型建模大脑皮层的细胞。
2.根据权利要求1所述的自动驾驶视觉推理认知方法,其特征在于,人脑视觉通路模型还包括先验对齐网络;
在对图像进行低级和中级认知之前,采用先验对齐网络对图像和问题文本进行先验性对齐。
3.一种自动驾驶视觉推理认知装置,其特征在于,包括:
获取模块,获取自动驾驶场景下的图像和图像对应的问题文本;
认知模块,根据图像和图像对应的问题文本,采用人脑视觉通路模型,获得图像和问题文本对应的答案;
其中,人脑视觉通路模型的工作过程为:
采用视网膜模型将图像转换成脉冲信号,采用外侧膝状体模型对脉冲信号进行整合,采用视觉皮层V1模型,对外侧膝状体模型的输出信号进行多通道的特征提取,并对不同通路输出的特征进行编码,采用视觉皮层V2模型对对编码的特征进行进一步提取,获得多样性编码后的图像;其中,在视觉皮层V1模型中,在接收外侧膝状体模型的输出时,向外侧膝状体模型发出反馈脉冲,用以调整外侧膝状体模型输出层的发射速率;
对多样性编码后的图像进行特征提取,根据提取的特征,获得图像中每个对象的特征图;
采用视觉皮层V4模型和视觉皮层V3模型,分别对多样性编码后的图像中的对象节点和对象节点间的关系进行提取,根据对象节点和对象节点见的关系,生成场景图,采用视觉皮层V5模型对问题文本进行动作解析,采用顶内沟模型对动作解析结果进行规划,根据规划结果和场景图,生成场景图的有向序列,根据场景图的有向序列,采用下颞叶皮层模型进行场景图上的游走溯因,获得图像中每个对象的最终认知结果;
采用前额叶模型对最终认知结果进行推理,获得图像和问题文本对应的答案;
其中,人脑视觉通路模型中的各模型用以仿照视觉通路的各个大脑皮层、且采用神经元模型建模大脑皮层的细胞。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行权利要求1~
2任一所述的方法。
5.一种计算机设备,其特征在于,包括:
一个或多个处理器、以及一个或多个存储器,一个或多个程序存储在一个或多个存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行权利要求1 2任~一所述的方法的指令。