利索能及
我要发布
收藏
专利号: 202310894064X
申请人: 盐城工学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于大型语言模型的有声书自动生成方法,其特征在于,包括以下步骤:

步骤1:训练数据的准备:首先获取多种来源的多模态训练数据,这些来源可以包括现有的电影剧本及配音、有声书以及人工专门注释的数据集,对于人工注释的数据集,人类注释员评估模型生成的声音与其对应角色的匹配程度,对声音在预定的尺度上进行评级,生成监督学习的标签,该数据集被用于提升模型对于声音风格的生成多样性,并将这些声音恰当地匹配至角色;

步骤2:模型训练:在获取训练数据后,在预训练好的大语言模型基础上,运用这些数据来训练多模态大语言模型,语言模型根据角色的属性如性别、年龄和性格生成独特的声音和说话风格,模型将输入的文本与相应的声音标签关联起来,进一步学习将角色属性与特定的声音风格联系在一起,模型通过理解文本上下文、识别角色及其属性和情绪,生成相应的独特声音,人类注释员的反馈被用于模型的迭代改进,以增强模型在生成符合角色性质并根据场景和情绪调整声音的能力;

步骤3:有声书生成:模型训练完成后,开始从给定的文本中生成有声书,模型处理文本以识别角色、属性和上下文,然后根据之前学习到的知识生成各角色的独特声音,模型会维持上下文的跟踪,并根据不同场景和角色的情绪调整语调、语速和音量,此外,模型根据场景描述生成真实的背景声音;

步骤4:用户反馈与持续优化:用户反馈是持续优化生成过程的重要部分,用户对生成的声音、声音一致性和与角色匹配度的反馈可以被纳入训练数据,进一步改进模型,因此,该过程形成了一个生成、反馈和改进的迭代循环,从而提高了自动生成有声书的整体质量和真实感。

2.根据权利要求1所述的基于大型语言模型的有声书自动生成方法,其特征在于,每个角色的音调在整本有声书中保持一致。

3.根据权利要求1或2所述的基于大型语言模型的有声书自动生成方法,其特征在于,语言模型根据不同的场景和角色的情绪调整角色的语调、语速和音量。

4.根据权利要求3所述的基于大型语言模型的有声书自动生成方法,其特征在于,语言模型根据文本中的场景描述真实地生成背景声音。

5.根据权利要求4所述的基于大型语言模型的有声书自动生成方法,其特征在于,语言模型包含现有电影剧本、配音和有声书的数据集上进行训练。

6.根据权利要求5所述的基于大型语言模型的有声书自动生成方法,其特征在于,语言模型进一步在特别注释的数据集上训练,该数据集包括生成的声音与其相应角色之间的匹配程度的手动评估,帮助模型学习多样化的声音风格并改进声音与角色的匹配。