1.一种视频处理方法,其中,包括:
获取源视频的第一特征信息;
获取每个候选音乐素材的第二特征信息;
将所述第一特征信息和所述第二特征信息分别在特征空间内进行映射,以获取所述源视频与所述候选音乐素材的相似度;
根据每个所述候选音乐素材对应的所述相似度,从多个所述候选音乐素材中选取目标音乐素材;以及在所述源视频中加载所述目标音乐素材,以生成目标视频。
2.根据权利要求1所述的视频处理方法,其中,所述将所述第一特征信息和所述第二特征信息分别在特征空间内进行映射,以获取所述源视频与所述候选音乐素材的相似度,包括:对所述第一特征信息进行度量学习,以获取在所述特征空间内所述源视频的第一特征表示;
对所述第二特征信息进行度量学习,以获取在所述特征空间内所述候选音乐素材的第二特征表示;
获取所述第一特征表示和所述第二特征表示之间的相似度,作为所述源视频与所述候选音乐素材的所述相似度。
3.根据权利要求1所述的视频处理方法,其中,所述获取源视频的第一特征信息,包括:对所述源视频进行特征提取,以获取所述源视频的图像特征;
对所述源视频进行实体识别,以获取所述源视频的第一实体关键词;以及根据所述图像特征和所述第一实体关键词,生成所述第一特征信息。
4.根据权利要求3所述的视频处理方法,其中,所述根据所述图像特征和所述第一实体关键词,生成所述第一特征信息,包括:获取所述第一实体关键词的第一词向量;以及
将所述图像特征和所述第一词向量进行拼接,以获取所述第一特征信息。
5.根据权利要求1所述的视频处理方法,其中,所述获取每个候选音乐素材的第二特征信息,包括:对所述候选音乐素材进行特征提取,以获取所述候选音乐素材的音频特征;
对所述候选音乐素材进行语音信息识别,以获取所述候选音乐素材的第二实体关键词;以及根据所述音频特征和所述第二实体关键词,生成所述第二特征信息。
6.根据权利要求1所述的视频处理方法,其中,所述根据所述音频特征和所述第二实体关键词,生成所述第二特征信息,包括:获取所述第二实体关键词的第二词向量;以及
将所述音频特征和所述第二词向量进行拼接,以获取所述第二特征信息。
7.根据权利要求2-6任一项所述的视频处理方法,其中,还包括:选取样本数据,其中所述样本数据中包括样本视频和与所述样本视频匹配的背景音乐;
分别获取所述样本视频的第三特征信息和所述背景音乐的第四特征信息;
利用所述第三特征信息和所述第四特征信息,对度量学习模型进行训练,以生成目标度量学习模型,其中,所述目标度量学习模型用于对所述第一特征信息和所述第二特征信息进行度量学习。
8.根据权利要求7所述的视频处理方法,其中,所述选取样本数据,包括:获取候选样本视频和所述候选样本视频的描述信息;以及根据所述描述信息从所述候选样本视频中筛选出所述样本视频。
9.根据权利要求7所述的视频处理方法,其中,所述分别获取所述样本视频的第三特征信息和所述背景音乐的第四特征信息,还包括:从所述样本数据中分离出所述样本视频和所述背景音乐;
将所述样本视频输入视频通道中进行特征提取,以获取所述第三特征信息;以及将所述背景音乐输入音频通道中进行特征提取,以获取所述第四特征信息。
10.一种视频处理装置,其中,包括:
第一获取模块,用于获取源视频的第一特征信息;
第二获取模块,用于获取每个候选音乐素材的第二特征信息;
相似度获取模块,用于将所述第一特征信息和所述第二特征信息分别在特征空间内进行映射,以获取所述源视频与所述候选音乐素材的相似度;
素材选取模块,用于根据每个所述候选音乐素材对应的所述相似度,从多个所述候选音乐素材中选取目标音乐素材;以及生成模块,用于在所述源视频中加载所述目标音乐素材,以生成目标视频。
11.根据权利要求10所述的视频处理装置,其中,所述相似度获取模块,包括:特征表示获取单元,用于对所述第一特征信息进行度量学习,以获取在所述特征空间内所述源视频的第一特征表示,以及对所述第二特征信息进行度量学习,以获取在所述特征空间内所述候选音乐素材的第二特征表示;
相似度获取单元,用于获取所述第一特征表示和所述第二特征表示之间的相似度,作为所述源视频与所述候选音乐素材的所述相似度。
12.根据权利要求10所述的视频处理装置,其中,所述第一获取模块,包括:特征提取单元,用于对所述源视频进行特征提取,以获取所述源视频的图像特征;
实体识别单元,用于对所述源视频进行实体识别,以获取所述源视频的第一实体关键词;以及第一生成单元,用于根据所述图像特征和所述第一实体关键词,生成所述第一特征信息。
13.根据权利要求12所述的视频处理装置,其中,所述第一生成单元,包括:第一获取子单元,用于获取所述第一实体关键词的第一词向量;以及第二获取子单元,用于将所述图像特征和所述第一词向量进行拼接,以获取所述第一特征信息。
14.根据权利要求10所述的视频处理装置,其中,所述第二获取模块,包括:第一获取单元,用于对所述候选音乐素材进行特征提取,以获取所述候选音乐素材的音频特征;
第二获取单元,用于对所述候选音乐素材进行语音信息识别,以获取所述候选音乐素材的第二实体关键词;以及第二生成单元,用于根据所述音频特征和所述第二实体关键词,生成所述第二特征信息。
15.根据权利要求1所述的视频处理装置,其中,所述第二生成单元,包括:第三获取子单元,用于获取所述第二实体关键词的第二词向量;以及第四获取子单元,用于将所述音频特征和所述第二词向量进行拼接,以获取所述第二特征信息。
16.根据权利要求11-15任一项所述的视频处理装置,其中,所述相似度获取模块,还包括:样本选取单元,用于选取样本数据,其中所述样本数据中包括样本视频和与所述样本视频匹配的背景音乐;
第三获取单元,用于分别获取所述样本视频的第三特征信息和所述背景音乐的第四特征信息;
第三生成单元,用于利用所述第三特征信息和所述第四特征信息,对度量学习模型进行训练,以生成目标度量学习模型,其中,所述目标度量学习模型用于对所述第一特征信息和所述第二特征信息进行度量学习。
17.根据权利要求16所述的视频处理装置,其中,所述样本选取单元,包括:第五获取子单元,用于获取候选样本视频和所述候选样本视频的描述信息;以及筛选子单元,用于根据所述描述信息从所述候选样本视频中筛选出所述样本视频。
18.根据权利要求16所述的视频处理装置,其中,所述第三获取单元,还包括:分离子单元,用于从所述样本数据中分离出所述样本视频和所述背景音乐;
第六获取子单元,用于将所述样本视频输入视频通道中进行特征提取,以获取所述第三特征信息;以及第七获取子单元,用于将所述背景音乐输入音频通道中进行特征提取,以获取所述第四特征信息。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的视频处理方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的视频处理方法。