利索能及
我要发布
收藏
专利号: 2021103587188
申请人: 深圳市福田区吨吨文化工作室
专利类型:发明专利
专利状态:已下证
更新日期:2025-06-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于大数据和机器学习算法创作短视频的系统,其特征在于,包括数据采集模块(1)、达人画像模块(2)、视频特征模块(3)、达人管理展示模块(4)、投放效果模块(5)和视频片段库(6);

所述数据采集模块(1)分别与达人画像模块(2)和视频特征模块(3)连接,用于采集全网短视频,并将达人相关数据存储到达人画像模块(2),将视频相关数据存储到视频特征模块(3);

所述视频特征模块(3)用于存储视频特征数据、以及使用该数据对视频生成形成指导性意见;

所述达人画像模块(2)与达人管理展示模块(4)连接,用于将各个达人的画像数据与广告主所提出的需推广产品的属性进行匹配,最终输出每个达人与产品的匹配度评分;

所述投放效果模块(5)与视频特征模块(3)连接,用于监控投放出去的短视频的观众反馈,并将收集到的视频数据输入到视频特征模块(3)进行解析后,与其他视频的视频特征一起存储;

所述视频片段库(6)分别与视频特征模块(3)和投放效果模块(5)连接,用于存储所有短视频片段;

画面分解组件(103)将视频的画面特征,分解提取并存储,其工作步骤如下:步骤301、将短视频中关键帧的画面内各个基础特征采用图像识别算法对比图文预训练神经网络模型CLIP提取出来;

步骤302、将分离出来的特征的值存储到视频特征库(301)中的相关列中;

文本分解组件(104)将视频的文本特征分解提取并存储,其工作步骤如下:步骤401、将短视频中全部文案通过语音识别算法转变为文字;

步骤402、将文字稿采用语义识别算法分解出感兴趣的标签;

步骤403、将感兴趣的标签存储到视频特征库(301)中的相关列中;

声音分解组件(105)将视频的声音特征分解提取并存储,其工作步骤如下:步骤501、将短视频中全部音轨通过音色处理算法转换成计算机能读懂的带音频属性的可量化信息串;

步骤502、将音轨信息串的波频、波长信息进行统计汇总,形成对语气、语调标签的量化指标;

步骤503、将以上量化指标存储到视频特征库(301)中的相关列中;

故事线分解组件(106)将视频的情节特征分解提取并存储,其工作步骤如下:步骤601、输入文本分解组件(104)中的执行结果;

步骤602、将文字稿采用语义识别算法和情绪归类算法分解出故事结构、结构占比、结构时长的量化属性;

步骤603、将以上量化属性存储到视频特征库(301)中的相关列中。

2.根据权利要求1所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述数据采集模块(1)包括视频抓取组件(101)、主体标签组件(102)、画面分解组件(103)、文本分解组件(104)、声音分解组件(105)、故事线分解组件(106)和视频效果分解组件(107);所述视频抓取组件(101)分别与主体标签组件(102)、画面分解组件(103)、文本分解组件(104)、声音分解组件(105)、故事线分解组件(106)和视频效果分解组件(107)连接;

所述主体标签组件(102)与达人画像模块(2)连接;所述画面分解组件(103)、文本分解组件(104)、声音分解组件(105)、故事线分解组件(106)和视频效果分解组件(107)分别与视频特征模块(3)连接;

所述达人画像模块(2)包括达人画像库(201)和与达人画像库(201)连接的达人评分算法(202),所述达人画像库(201)和达人评分算法(202)分别与达人管理展示模块(4)连接,所述主体标签组件(102)与达人画像库(201)连接;

所述视频特征模块(3)包括与投放效果模块(5)连接的视频特征库(301)和与视频特征库(301)连接的视频特征处理组件(302),所述画面分解组件(103)、文本分解组件(104)、声音分解组件(105)、故事线分解组件(106)和视频效果分解组件(107)分别与视频特征库(301)连接,所述视频片段库(6)与视频特征处理组件(302)连接;

所述达人管理展示模块(4)包括达人展示页面(401)和与达人展示页面(401)连接的达人排期库(402),所述达人画像库(201)和达人评分算法(202)分别与达人展示页面(401)连接。

3.根据权利要求2所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述视频抓取组件(101)用于抓取短视频,采用Python语言开发,并采用开源的request、json库,其工作步骤如下:步骤101、分析网页类型,获取爬虫参数;

步骤102、模拟浏览器发送请求,获取响应数据;

步骤103、解析数据,使用json库把json字符串转换为python可交互的数据类型;

步骤104、保存数据,将视频数据保存在目标文件夹中。

4.根据权利要求2所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述主体标签组件(102)通过主体标签库和达人画像库(201)的配合将短视频中的表演主体进行标签化处理;

主体标签库存储了若干个描述主体特征的标签,达人画像库(201)以主体编号为唯一ID,列出若干个主体标签库中的标签,达人画像库(201)的记录方式为0/1记录,满足该标签则为1,否则为0,达人画像库(201)同步记录该主体满足某标签的视频的个数;

主体标签组件(102)采用Python语言开发,其工作步骤如下:步骤201、将短视频中的表演主体分离出来;

步骤202、将分离出来的表演主体进行编号,并与预存的主体标签库的标签做对比,计算各个标签的相关度;

步骤203、将高相关度的主体标签更新到达人画像库(201)中,如果该标签计数本来为

0,则更新为1;如果本来为1,则将记录该主体满足某标签的视频个数增加1。

5.根据权利要求2所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述视频效果分解组件(107)将提取视频播放效果特征并存储,其工作步骤如下:步骤701、将短视频的播放效果指标统计提取;

步骤702、将以上量化属性存储到视频特征库(301)中的相关列中。

6.根据权利要求2所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述视频特征库(301)以视频编号为唯一ID,以数据采集模块(1)的输出为输入,将量化分解后的视频分为画面、文本、声音、故事线这四个大维度存储。

7.根据权利要求2所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述视频特征处理组件(302)采用视频特征库(301)的特征数据,输出短视频优化建议,其工作步骤如下:步骤801、接收视频特征库(301)的特征数据输入;

步骤802、以各个视频的播放效果为目标变量,以各个视频的画面、文本、声音、故事线、达人画像维度的特征为预测变量,使用有监督机器学习算法建模;

步骤803、提取建模过程中的各个预测变量的特征重要性;

步骤804、将特征重要性排名输出给用户。

8.根据权利要求2所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述视频片段库(6)存储的短视频片段包括视频抓取组件(101)的生产物、以及使用本系统的创作者出品的生产物;视频片段库(6)中的视频拆解组件将视频拆解成视频片段,其工作步骤如下:步骤901、接收视频抓取组件(101)抓取的视频片段;

步骤902、接收创作者拍摄好的完整视频;

步骤903、使用多模态视频理解技术对视频进行拆解,成为片段;

步骤904、将视频片段编号,并存储到视频片段库(6)中。

9.根据权利要求2所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述达人排期库(402)内存储了达人能够接拍视频的日期和时间,以及在各个日期拍摄的收费,其数据来自于达人展示页面(401),工作步骤如下:步骤1001、广告主在达人展示页面(401)浏览达人数据并点击向感兴趣的达人发起广告拍摄邀约;

步骤1002、达人展示页面(401)接收到该邀约后,通知达人确认;

步骤1003、达人确认后,将邀约数据录入达人排期库(402),达人可接拍视频的时间减少;

步骤1004、达人排期库(402)向达人展示页面(401)发送信息,更新达人可接拍视频时间展示。

10.根据权利要求2所述的一种基于大数据和机器学习算法创作短视频的系统,其特征在于,所述达人展示页面(401)采用HTML网页,向广告主展示各个达人的画像信息和排期信息,供广告主挑选合作,其展示数据来自于达人画像库(201)和达人排期库(402),工作步骤如下:步骤1101、接收达人画像库(201)的数据及其数据更新;

步骤1102、接收达人排期库(402)的排期数据及其数据更新;

步骤1103、接收达人评分算法(202)的数据及其数据更新;

步骤1104、在HTML页面向登陆用户展示数据。

11.一种基于大数据和机器学习算法创作短视频的方法,其特征在于,包括如下步骤:步骤1、广告主提出广告需求;

步骤2、达人画像模块(2)从数据采集模块(1)获取达人数据;

步骤3、达人评分算法(202)获取达人画像模块(2)的达人数据,并通过达人与广告主的匹配评分选取达人;

步骤4、视频特征模块(3)采用语义理解算法和视频特征提取算法从数据采集模块(1)获取并拆解出视频特征数据,并依此向编剧团队提供选题、文案、时长的拍摄建议;

步骤5、编剧团队采用以上建议,根据选取的达人特点设计剧本,并监督达人拍摄;

步骤6、编剧团队将视频剪辑成片段存入视频片段库(6);

步骤7、视频特征模块(3)将新视频进行语义理解和视频特征提取与分类后的特征再存入视频特征库(301);

步骤8、视频被投放到短视频平台;

步骤9、投放效果模块(5)采集以上投放的短视频的投放效果数据;

步骤10、投放效果模块(5)调用推荐优化算法,输入短视频的投放效果数据;

步骤11、推荐优化算法调用视频特征模块(3),输入视频特征;

步骤12、推荐优化算法,结合步骤10和步骤11中的视频特征和投放效果,采用有监督学习模型,科学地给出重新剪辑建议;

步骤13、编剧团队重新剪辑视频,并调用视频特征模块(3)将新视频的特征存入视频特征库(301),重复步骤8‑步骤13,反复优化短视频;

画面分解组件(103)将视频的画面特征,分解提取并存储,其工作步骤如下:步骤301、将短视频中关键帧的画面内各个基础特征采用图像识别算法对比图文预训练神经网络模型CLIP提取出来;

步骤302、将分离出来的特征的值存储到视频特征库(301)中的相关列中;

文本分解组件(104)将视频的文本特征分解提取并存储,其工作步骤如下:步骤401、将短视频中全部文案通过语音识别算法转变为文字;

步骤402、将文字稿采用语义识别算法分解出感兴趣的标签;

步骤403、将感兴趣的标签存储到视频特征库(301)中的相关列中;

声音分解组件(105)将视频的声音特征分解提取并存储,其工作步骤如下:步骤501、将短视频中全部音轨通过音色处理算法转换成计算机能读懂的带音频属性的可量化信息串;

步骤502、将音轨信息串的波频、波长信息进行统计汇总,形成对语气、语调标签的量化指标;

步骤503、将以上量化指标存储到视频特征库(301)中的相关列中;

故事线分解组件(106)将视频的情节特征分解提取并存储,其工作步骤如下:步骤601、输入文本分解组件(104)中的执行结果;

步骤602、将文字稿采用语义识别算法和情绪归类算法分解出故事结构、结构占比、结构时长的量化属性;

步骤603、将以上量化属性存储到视频特征库(301)中的相关列中。