1.一种答案筛选方法,其特征在于,所述方法包括:
获取待测试的问题答案数据,其中,所述问题答案数据包括多个问题和答案,每一个所述问题对应一个或多个所述答案,每一个所述问题与对应的任一个所述答案形成一个问题答案对;
计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分;
检测每一个所述问题答案对中答案的错误率占比,根据所述错误率占比确定所述问题答案对的第二得分;
统计每一个所述问题答案对中答案的长度值,根据所述长度值计算所述问题答案对的第三得分;
计算每一个所述问题答案对中答案的图像得分,得到问题答案对的第四得分;
根据所述第一得分、所述第二得分、所述第三得分和所述第四得分计算出每一个所述问题答案对的最终得分值;
根据多个所述最终得分值筛选出每一个问题对应的最优答案。
2.根据权利要求1所述的方法,其特征在于,所述问题包括问题文本,所述答案包括答案文本和答案图像;每一个所述问题答案对包括问题答案文本对和/或问题答案图像对;
计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分的步骤中,包括:当一个所述问题答案对为问题答案文本对,或为所述问题答案文本对和所述问题答案图像对时,将所述问题答案文本对输入文本特征提取模型得到问题文本的特征向量与答案文本的特征向量,并将所述问题文本的特征向量与所述答案文本的特征向量进行内积计算,得到所述问题答案对的第一得分;其中所述文本特征提取模型是采用标记的文本数据对第一深度神经网络进行训练得到的,所述文本数据包括多个问题文本和答案文本,每一个所述问题文本对应一个或多个所述答案文本,每一个所述问题文本与对应的任一个所述答案文本形成一个问题答案文本对;
或
当一个所述问题答案对为所述问题答案图像对时,采用第一预设值作为所述问题答案对的第一得分。
3.根据权利要求2所述的方法,其特征在于,所述错误率占比包括错别字占比,在检测每一个所述问题答案对中答案的错误率占比,计算得到所述问题答案对的第二得分的步骤中,包括:当一个所述问题答案对为问题答案文本对,或为所述问题答案文本对和所述问题答案图像对时,将所述问题答案文本对中的答案文本采用SymSpell方法检测错别字的个数,并计算出错别字占比,根据所述错别字占比计算得到所述问题答案对的第二得分;
或
当一个所述问题答案对为所述问题答案图像对时,采用第二预设值记为所述问题答案对的第二得分。
4.根据权利要求2所述的方法,其特征在于,统计每一个所述问题答案对中答案的长度值,根据所述长度值计算问题答案对的第三得分的步骤中,包括:当一个所述问题答案对为问题答案文本对,或为所述问题答案文本对和所述问题答案图像对时,统计所述问题答案文本对中的答案文本的长度;
采用预设长度来对所述答案文本的长度进行分段,根据分段结果对所述答案文本进行评分,得到所述问题答案对的第三得分;
或
当一个所述问题答案对为所述问题答案图像对时,采用第三预设值作为所述问题答案对的第三得分。
5.根据权利要求2-4任一项所述的方法,其特征在于,计算每一个所述问题答案对中答案的图像得分,得到问题答案对的第四得分的步骤中,包括:当一个所述问题答案对为问题答案图像对,或为所述问题答案文本对和所述问题答案图像对时,将所述问题答案图像对中的答案图像输入图像分类模型,得到所述答案图像的分类结果;其中所述图像分类模型是采用标记的图像数据对第二深度神经网络进行训练得到的,所述图像数据包括多种图像,且数量为多张;
当所述答案图像为普通图像时,得到第一图像得分;
采用第三深度神经网络对所述答案图像进行文字提取,得到对应的答案文本;
将所述问题答案图像对中的问题文本与所述对应的答案文本输入所述文本特征提取模型,得到所述问题文本的特征向量与所述对应的答案文本的特征向量,并将所述问题文本的特征向量与所述对应的答案文本的特征向量进行内积计算,将计算结果记为第二图像得分;
根据所述第一图像得分和第二所述图像得分,计算得出所述问题答案对的第四得分;
或
当一个所述问题答案对为所述问题答案文本对时,采用第四预设值作为所述问题答案对的第四得分。
6.根据权利要求5所述的方法,其特征在于,当所述答案图像为敏感图像时,删除所述问题答案对。
7.根据权利要求1-4任一项所述的方法,其特征在于,根据所述第一得分、所述第二得分、所述第三得分和所述第四得分计算出每一个所述问题答案对的最终得分值的步骤中,包括:对所述第一得分、所述第二得分、所述第三得分和所述第四得分进行加权计算,得到所述最终得分值;其中加权系数为预设值。
8.根据权利要求2-4任一项所述的方法,其特征在于,所述文本特征提取模型通过以下方法获得:获取文本数据,对所述文本数据进行标记,并将标记后的文本数据按照第一预设比例分为训练集和测试集;
将训练集中的问题答案文本对输入第一深度神经网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始文本特征提取模型;
采用测试集中的问题答案文本对对所述初始文本特征提取模型进行测试,当测试效果最优时,获得所述文本特征提取模型。
9.根据权利要求5所述的方法,其特征在于,所述图像分类模型通过以下方式获得:获取图像数据,对所述图像数据进行标记,并将标记后的图像数据按照第二预设预设比例分为训练集和测试集;
将训练集中的图像数据输入第二深度神经网络,计算第二损失函数,更新网络参数,得到初始图像分类模型;
采用测试集中的图像数据对所述初始图像分类模型进行测试,当效果最优时,获得所述图像分类模型。
10.根据权利要求8所述的方法,其特征在于,在对所述文本数据进行标记的步骤中,包括:对每一个所述问题答案文本对进行相关性以及准确度计算分析;
根据分析结果,选择最佳的问题答案文本对标记为正样本,剩余的问题答案文本对标记为负样本。
11.根据权利要求9所述的方法,其特征在于,在对所述图像数据进行标记的步骤中,包括:对每一张所述图像进行判断,当为普通图像时,采用第一标签进行标记;
当为敏感图像时,采用第二标签进行标记。
12.根据权利要求8所述的方法,其特征在于,所述第一深度神经网络包括预训练好的BERT网络,所述初始文本特征提取模型包括初始BERT文本特征提取模型;将训练集中的问题答案文本对输入第一深度神经网络,计算第一损失函数,更新网络参数直至网络收敛,获得初始文本特征提取模型的步骤中,包括:将所述训练集中的问题答案文本对输入所述预训练好的BERT网络,计算第一损失函数,更新网络参数直至网络收敛,获得所述初始BERT文本特征提取模型;其中所述预训练好的BERT网络是采用开源数据库中的文本数据对BERT模型进行训练得到的。
13.一种答案筛选装置,其特征在于,所述装置包括:
问题答案数据获取模块,用于获取待测试的问题答案数据,其中,所述问题答案数据包括多个问题和答案,每一个所述问题对应一个或多个答案,每一个所述问题与对应的任一个所述答案形成一个问题答案对;
第一得分获得模块,用于计算每一个所述问题答案对中问题与答案之间的文本得分,得到所述问题答案对的第一得分;
第二得分获得模块,用于检测每一个所述问题答案对中答案的错误率占比,根据所述错误率占比确定问题答案对的第二得分;
第三得分获得模块,用于统计每一个所述问题答案对中答案的长度值,根据所述长度值计算问题答案对的第三得分;
第四得分获得模块,用于计算每一个所述问题答案对中答案的图像得分,得到问题答案对的第四得分;
最终得分值计算模块,用于根据所述第一得分、所述第二得分、所述第三得分和所述第四得分计算出每一个所述问题答案对的最终得分值;
筛选模块,用于根据多个所述最终得分值筛选出每一个问题对应的最优答案。
14.一种终端设备,其特征在于,包括:
存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如权利要求1-12任一项所述的方法。
15.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-12任一项所述的方法。