1.一种跨社交网络的身份链接方法,其特征在于,包括:获取不同社交网络中两个目标文本帖子;
将所述目标文本帖子预处理后,输入训练好的网络模型中,获取两个所述目标文本帖子是否属于同一个用户;
其中,所述网络模型的训练包括:
获取不同社交网络中各文本帖子;
对各所述文本帖子进行预处理生成文本数据集;
将所述文本数据集划分为训练集、验证集以及测试集;
构建基于多角度文本信息的网络模型,通过所述训练集对所述网络模型进行训练;在每轮训练完成后,使用所述验证集进行模型筛选,保留最优的网络模型,使用所述测试集进行模型测试,获取网络模型的效果;
所述网络模型包括帖子级向量表征模块、用户级向量生成模块以及总相似度分布生成模块;
所述帖子级向量表征模块包括主题表征模块、浅层语义表征模块以及帖子相似度分布生成模块;所述主题表征模块包括RoBERTa语言模型、变分自编码器以及解码器,用于根据文本帖子生成主题向量表示;所述浅层语义表征模块包括GloVe词嵌入工具和BiLSTM网络模型,用于根据文本帖子生成浅层语义向量表示;所述帖子相似度分布生成模块用于计算所述主题向量表示间包含时间因素的相似度和所述浅层语义向量表示间包含时间因素的相似度,并根据所述相似度计算帖子相似度分布;
所述用户级向量生成模块包括知识三元组提取模块、用户级向量生成模块以及多层感知机;所述知识三元组提取模块包括sbert模型,用于根据文本帖子与开源知识图谱库匹配知识三元组;所述用户级向量生成模块包括编码器,用于根据所述知识三元组生成用户画像表征向量;所述多层感知机用于根据用户画像表征向量生成用户级相似度分布;
所述总相似度分布生成模块用于根据所述帖子相似度分布和所述用户级相似度分布生成总相似度分布。
2.根据权利要求1所述的跨社交网络的身份链接方法,其特征在于,所述对各所述文本帖子进行预处理生成文本数据集包括:对文本帖子进行预处理生成样本数据,所述预处理包括将文本帖子中的链接删除、emoji表情替换为对应的文字;
将两个不同社区网络中已知属于同一自然人的账户对作为正样本跨网络账户对,根据所述正样本跨网络账户对随机生成负样本跨网络账户对;
将所述正样本跨网络账户对对应的样本数据作为正样本数据,将所述负样本跨网络账户对对应的样本数据作为负样本数据;
将相同数量的正样本数据和负样本数据合并为文本数据集。
3.根据权利要求1所述的跨社交网络的身份链接方法,其特征在于,所述根据文本帖子生成帖子向量表示包括:通过所述RoBERTa语言模型将第 个用户的第 个文本帖子 转化为帖子向量表示 ;
通过所述变分自编码器根据所述帖子向量表示 生成主题向量表示的概率分布:;
式中,为变分自编码器, 均为多层感知机, 为高斯分布函数, 为文本帖子 的主题向量表示, 为第 个用户的第 个文本帖子及其之前所有文本帖子的帖子向量表示, 为第 个用户的第 个文本帖子之前所有文本帖子的主题向量表示; 为文本帖子 的特征向量:;
;
式中, 为文本帖子 的帖子向量表示, 为注意力机制函数,分别作为注意力机制函数的查询向向量、键向量和值向量。
4.根据权利要求3所述的跨社交网络的身份链接方法,其特征在于,所述解码器用于根据主题向量表示的概率分布重构帖子向量表示 ;
以帖子向量表示 和帖子向量表示 的差距最小化为目标,对所述变分自编码器和所述解码器进行训练优化。
5.根据权利要求1所述的跨社交网络的身份链接方法,其特征在于,所述根据文本帖子生成浅层语义向量表示包括:通过所述GloVe词嵌入工具用于将第 个用户的第 个文本帖子 中第 个单词转化为词向量表示 ;
通过所述BiLSTM网络模型用于根据所述词向量表示 生成文本帖子 的浅层语义向量表示 ;
;
式中, 为文本帖子 的浅层语义向量表示,为文本帖子 中单词数量, 为文本帖子 中第 个单词的浅层语义向量表示:;
;
式中, 为对文本帖子 中第 个单词向前LSTM模型获取的向量;
分别为向前LSTM模型的更新门、存储单元状态、重置门:;
;
;
式中, 为向前LSTM模型的存储单元对应的权重矩阵和偏置值, 为元素相乘运算, 为向前LSTM模型的更新门对应的权重矩阵和偏置值, 为向前LSTM模型的重置门对应的权重矩阵和偏置值, 为Sigmoid激活函数;
;
式中, 为对文本帖子 中第 个单词向后LSTM获取的向量;
分别为向后LSTM模型的更新门、存储单元状态、重置门:;
;
;
式中, 为向后LSTM模型的存储单元对应的权重矩阵和偏置值, 为向后LSTM模型的更新门对应的权重矩阵和偏置值, 为向后LSTM模型的重置门对应的权重矩阵和偏置值。
6.根据权利要求1所述的跨社交网络的身份链接方法,其特征在于,所述主题向量表示间包含时间因素的相似度 为:;
式中, 为主题向量表示间余弦相似度:;
式中, 为第 个用户的第 个文本帖子 的主题向量表示, 为第 个用户的第 个文本帖子 的主题向量表示; 为文本帖子 和文本帖子 的主题向量表示间的相似度;
为文本帖子间的时间关联性权重:
;
所述浅层语义向量表示间包含时间因素的的相似度 为:;
式中, 为浅层语义向量表示间余弦相似度:;
式中, 为第 个用户的第 个文本帖子 的浅层语义向量表示, 为第 个用户的第个文本帖子 的浅层语义向量表示, 为文本帖子 和文本帖子 的浅层语义向量表示间的相似度;
所述根据所述相似度计算帖子相似度分布包括:根据所述相似度计算帖子相似度 :
;
式中, 为主题向量表示间包含时间因素的相似度集合、浅层语义向量表示间包含时间因素的的相似度集合; , ,为第个用户的文本帖子数量; 为 的置信度:;
;
;
式中, 分别为主题向量表示对应的权重矩阵和偏置值, 分别为浅层语义向量表示对应的权重矩阵和偏置值, 为注意力矩阵参数, 为向量连接操作;
根据所述帖子相似度 计算帖子相似度分布 :;
;
式中, 为第 个用户的第 个文本帖子 的帖子相似度分布,为第 个用户的文本帖子数量。
7.根据权利要求1所述的跨社交网络的身份链接方法,其特征在于,所述根据所述知识三元组生成用户画像表征向量包括:通过变分自编码器根据所述知识三元组生成知识向量表示;
通过位置编码器对所述知识向量表示嵌入时序性信息生成用户画像向量表示:;
;
式中, 为知识向量表示的维度, 为当前处理帖子的位置, 为维度索引。
8.根据权利要求1所述的跨社交网络的身份链接方法,其特征在于,所述网络模型的损失函数 为:;
式中, 为帖子级损失, 为用户级损失;
;
;
式中, 为样本数据数量,样本数据种类包括正样本数据和负样本数据, 为第 个样本数据的样本数量种类, 为第 个样本数据对应的样本数量种类预测;
;
;
式中, 为 激活函数的权重矩阵和偏置值,为帖子相似度分布;
分别为用户 的用户画像向量表示, 为 激活函数的权重矩阵。
9.一种跨社交网络的身份链接装置,其特征在于,所述装置包括:目标获取模块,用于获取不同社交网络中两个目标文本帖子;
身份链接模块,用于将所述目标文本帖子预处理后,输入训练好的网络模型中,获取两个所述目标文本帖子是否属于同一个用户;
其中,所述网络模型的训练包括:
获取不同社交网络中各文本帖子;
对各所述文本帖子进行预处理生成文本数据集;
将所述文本数据集划分为训练集、验证集以及测试集;
构建基于多角度文本信息的网络模型,通过所述训练集对所述网络模型进行训练;在每轮训练完成后,使用所述验证集进行模型筛选,保留最优的网络模型,使用所述测试集进行模型测试,获取网络模型的效果;
所述网络模型包括帖子级向量表征模块、用户级向量生成模块以及总相似度分布生成模块;
所述帖子级向量表征模块包括主题表征模块、浅层语义表征模块以及帖子相似度分布生成模块;所述主题表征模块包括RoBERTa语言模型、变分自编码器以及解码器,用于根据文本帖子生成主题向量表示;所述浅层语义表征模块包括GloVe词嵌入工具和BiLSTM网络模型,用于根据文本帖子生成浅层语义向量表示;所述帖子相似度分布生成模块用于计算所述主题向量表示间包含时间因素的相似度和所述浅层语义向量表示间包含时间因素的相似度,并根据所述相似度计算帖子相似度分布;
所述用户级向量生成模块包括知识三元组提取模块、用户级向量生成模块以及多层感知机;所述知识三元组提取模块包括sbert模型,用于根据文本帖子与开源知识图谱库匹配知识三元组;所述用户级向量生成模块包括编码器,用于根据所述知识三元组生成用户画像表征向量;所述多层感知机用于根据用户画像表征向量生成用户级相似度分布;
所述总相似度分布生成模块用于根据所述帖子相似度分布和所述用户级相似度分布生成总相似度分布。