利索能及
我要发布
收藏
专利号: 2024114119058
申请人: 山东天华通信有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-04-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于大语言模型的结构化信息检索方法,其特征在于,包含:

基于大数据语言模型对用户语音进行识别,根据匹配相似度获取多组识别检索结果以输出,并获取相对应的用户反馈信息,所述用户反馈信息用于表征多组识别检索结果的准确性;

基于用户反馈结果对所述识别检索结果进行结构拆分,获取多个结构词组,并根据所述结构词组的对应相关性进行筛选,获取用户对象的标定数据,所述标定数据包括结构词组对应的用户语音特征及识别匹配语音特征;

根据所述标定数据进行个性化偏向特征评价,以获取用户个性化矫正特征,所述个性化特征评价用于表征对用户语音的相似度评价过程;

将所述用户个性化矫正特征作为矫正向量对所述大数据语言模型进行识别匹配参数调整,以获取个体偏好语言模型,所述识别匹配参数调整用于表征对识别匹配语音特征的匹配数值额外赋值。

2.根据权利要求1所述的一种基于大语言模型的结构化信息检索方法,其特征在于,所述基于大数据语言模型对用户语音进行识别,根据匹配相似度获取多组识别检索结果以输出的步骤具体包括:采集并记录用户的检索请求语音,以获取用户语音;

基于大数据语言模型对所述用户语音进行匹配识别,以获取数个对应包含识别匹配度的词组匹配结果,每个用户语音段对应多个词组匹配结果,所述匹配识别度用于表征语音与当前大数据语言模型中匹配词组的特征重合比例;

基于用户语音段在用户语音中的位置顺序对不同用户语音段的不同词组匹配结果进行随机组合,并基于词组关联性进行筛选,以获取多组语音转换结果,所述词组关联性用于表征不同词组基于词性的组合规则,所述语音转换结果为文字数据类型;

根据所述语音转换结果进行关键字信息检索,获取相对应的检索信息内容,以对应生成多组识别检索结果,每个所述语音转化结果均可对应多个检索信息内容,且不同所述检索信息内容对应语音转换结果的不同关键字。

3.根据权利要求2所述的一种基于大语言模型的结构化信息检索方法,其特征在于,所述基于用户反馈结果对所述识别检索结果进行结构拆分,获取多个结构词组,并根据所述结构词组的对应相关性进行筛选,获取用户对象的标定数据的步骤包括:基于用户反馈结果获取相匹配的识别检索结果及语音转换结果,基于词组、词性及语音转换结果的句子词组结构对所述语音转换结果进行拆分,以获取多个结构词组;

分别判断多个所述结构词组与所述识别检索结果的关联性,并基于关联性排序降序选取数个高关联性的结构词组,并根据相对应的用户语音特征及识别匹配语音特征对应建立标定数据。

4.根据权利要求3所述的一种基于大语言模型的结构化信息检索方法,其特征在于,所述根据所述标定数据进行个性化偏向特征评价,以获取用户个性化矫正特征的步骤具体包括:通过所述标定数据中识别匹配语音特征获取多个匹配音节,所述匹配音节用于表征对应词组的标准发音组成单元;

对所述标定数据中的用户语音特征的对应用户音节与匹配音节进行发音特征偏向判断,分别获取所述用户音节与匹配音节的特征表达参数,所述特征表达参数用于表征对应音节发音特征与多个声音特征维度的重合比重;

计算所述用户音节与匹配音节特征表达参数的偏差占比,以获取个性化矫正特征,所述个性化矫正特征用于表征用户发音与标准识别发音的特征偏差量。

5.根据权利要求4所述的一种基于大语言模型的结构化信息检索方法,其特征在于,还包括语音体系与特征优化步骤,包括:通过云端对个性化矫正特征进行检索匹配,获取重合度达到预设值的多个方言特征,并基于用户的多组个性化矫正特征进行辅助判定,获取判定结果;

若用户符合对应方言特征,则通过云端获取对应方言的用词偏好,基于所述用词偏好进行大数据语言模型更新。

6.一种基于大语言模型的结构化信息检索系统,其特征在于,包含:

基础反馈模块,用于基于大数据语言模型对用户语音进行识别,根据匹配相似度获取多组识别检索结果以输出,并获取相对应的用户反馈信息,所述用户反馈信息用于表征多组识别检索结果的准确性;

拆分标定模块,用于基于用户反馈结果对所述识别检索结果进行结构拆分,获取多个结构词组,并根据所述结构词组的对应相关性进行筛选,获取用户对象的标定数据,所述标定数据包括结构词组对应的用户语音特征及识别匹配语音特征;

个性化标定模块,用于根据所述标定数据进行个性化偏向特征评价,以获取用户个性化矫正特征,所述个性化特征评价用于表征对用户语音的相似度评价过程;

用户嵌入模块,用于将所述用户个性化矫正特征作为矫正向量对所述大数据语言模型进行识别匹配参数调整,以获取个体偏好语言模型,所述识别匹配参数调整用于表征对识别匹配语音特征的匹配数值额外赋值。

7.根据权利要求6所述的一种基于大语言模型的结构化信息检索系统,其特征在于,所述基础反馈模块包括:数据采集单元,用于采集并记录用户的检索请求语音,以获取用户语音;

文本转化单元,用于基于大数据语言模型对所述用户语音进行匹配识别,以获取数个对应包含识别匹配度的词组匹配结果,每个用户语音段对应多个词组匹配结果,所述匹配识别度用于表征语音与当前大数据语言模型中匹配词组的特征重合比例;

文本筛选单元,用于基于用户语音段在用户语音中的位置顺序对不同用户语音段的不同词组匹配结果进行随机组合,并基于词组关联性进行筛选,以获取多组语音转换结果,所述词组关联性用于表征不同词组基于词性的组合规则,所述语音转换结果为文字数据类型;

信息检索单元,用于根据所述语音转换结果进行关键字信息检索,获取相对应的检索信息内容,以对应生成多组识别检索结果,每个所述语音转化结果均可对应多个检索信息内容,且不同所述检索信息内容对应语音转换结果的不同关键字。

8.根据权利要求7所述的一种基于大语言模型的结构化信息检索系统,其特征在于,所述拆分标定模块包括:整句拆分单元,用于基于用户反馈结果获取相匹配的识别检索结果及语音转换结果,基于词组、词性及语音转换结果的句子词组结构对所述语音转换结果进行拆分,以获取多个结构词组;

关联性判断单元,用于分别判断多个所述结构词组与所述识别检索结果的关联性,并基于关联性排序降序选取数个高关联性的结构词组,并根据相对应的用户语音特征及识别匹配语音特征对应建立标定数据。

9.根据权利要求8所述的一种基于大语言模型的结构化信息检索系统,其特征在于,所述个性化标定模块包括:音节拆分单元,用于通过所述标定数据中识别匹配语音特征获取多个匹配音节,所述匹配音节用于表征对应词组的标准发音组成单元;

偏向判断单元,用于对所述标定数据中的用户语音特征的对应用户音节与匹配音节进行发音特征偏向判断,分别获取所述用户音节与匹配音节的特征表达参数,所述特征表达参数用于表征对应音节发音特征与多个声音特征维度的重合比重;

个性化判断单元,用于计算所述用户音节与匹配音节特征表达参数的偏差占比,以获取个性化矫正特征,所述个性化矫正特征用于表征用户发音与标准识别发音的特征偏差量。

10.根据权利要求9所述的一种基于大语言模型的结构化信息检索系统,其特征在于,还包括词库优化模块,包括:方言判断单元,用于通过云端对个性化矫正特征进行检索匹配,获取重合度达到预设值的多个方言特征,并基于用户的多组个性化矫正特征进行辅助判定,获取判定结果;

方言优化单元,用于若用户符合对应方言特征,则通过云端获取对应方言的用词偏好,基于所述用词偏好进行大数据语言模型更新。