买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多模态大语言模型的有声书自动生成方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多模态大语言模型的有声书自动生成方法

面议

专利号： 202310894064X

申请人：盐城工学院

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于大型语言模型的有声书自动生成方法，其特征在于，包括以下步骤：

步骤1：训练数据的准备：首先获取多种来源的多模态训练数据，这些来源可以包括现有的电影剧本及配音、有声书以及人工专门注释的数据集，对于人工注释的数据集，人类注释员评估模型生成的声音与其对应角色的匹配程度，对声音在预定的尺度上进行评级，生成监督学习的标签，该数据集被用于提升模型对于声音风格的生成多样性，并将这些声音恰当地匹配至角色；

步骤2：模型训练：在获取训练数据后，在预训练好的大语言模型基础上，运用这些数据来训练多模态大语言模型，语言模型根据角色的属性如性别、年龄和性格生成独特的声音和说话风格，模型将输入的文本与相应的声音标签关联起来，进一步学习将角色属性与特定的声音风格联系在一起，模型通过理解文本上下文、识别角色及其属性和情绪，生成相应的独特声音，人类注释员的反馈被用于模型的迭代改进，以增强模型在生成符合角色性质并根据场景和情绪调整声音的能力；

步骤3：有声书生成：模型训练完成后，开始从给定的文本中生成有声书，模型处理文本以识别角色、属性和上下文，然后根据之前学习到的知识生成各角色的独特声音，模型会维持上下文的跟踪，并根据不同场景和角色的情绪调整语调、语速和音量，此外，模型根据场景描述生成真实的背景声音；

步骤4：用户反馈与持续优化：用户反馈是持续优化生成过程的重要部分，用户对生成的声音、声音一致性和与角色匹配度的反馈可以被纳入训练数据，进一步改进模型，因此，该过程形成了一个生成、反馈和改进的迭代循环，从而提高了自动生成有声书的整体质量和真实感。

2.根据权利要求1所述的基于大型语言模型的有声书自动生成方法，其特征在于，每个角色的音调在整本有声书中保持一致。

3.根据权利要求1或2所述的基于大型语言模型的有声书自动生成方法，其特征在于，语言模型根据不同的场景和角色的情绪调整角色的语调、语速和音量。

4.根据权利要求3所述的基于大型语言模型的有声书自动生成方法，其特征在于，语言模型根据文本中的场景描述真实地生成背景声音。

5.根据权利要求4所述的基于大型语言模型的有声书自动生成方法，其特征在于，语言模型包含现有电影剧本、配音和有声书的数据集上进行训练。

6.根据权利要求5所述的基于大型语言模型的有声书自动生成方法，其特征在于，语言模型进一步在特别注释的数据集上训练，该数据集包括生成的声音与其相应角色之间的匹配程度的手动评估，帮助模型学习多样化的声音风格并改进声音与角色的匹配。