利索能及
我要发布
收藏
专利号: 202210315435X
申请人: 东华理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于云平台的金融文本核查分析系统,其特征在于,包括:

金融样本集合获取单元,用于根据当前时间段的金融行业内特征词汇进行获取;并将获取的金融样本集合与对应的样本效应集合发送至实时特征核查分析单元;特征词汇为用户进行金融股票选择的参考值;实时文本特征初选单元,用于将当前金融文本进行特征初选,并根据特征初选获取到初特征文本;实时文本特征精选单元,用于将特征初选生成的初特征文本进行特征精选,并根据特征精选获取到精选特征文本;将精选特征文本发送至实时特征核查分析单元;

实时特征核查分析单元,用于将金融样本集合和精选特征文本进行比对通过比对获取核查样本集合,并将核查样本集合内子集进行重要性排序,并将完成排序的核查样本集合作为用户参考文本;

有效性分析单元,用于将对应用户参考文本进行有效性分析,通过有效性分析生成有效性分析合格信号和有效性分析不合格信号,并将其发送至实时特征核查分析单元;文本情感分析单元,用于将用户参考文本进行情感分析,通过情感分析将用户参考文本划分为负影响文本和正影响文本;

金融样本集合获取单元的运行过程如下:

根据当前时间段的金融行业内特征词汇进行获取,在完成金融样本集合构建后,根据金融样本集合对应构建样本效应集合,提取金融样本集合内的特征子集,并将特征子集进行分析,获取到实时特征子集出现时用户执行的股票操作以及用户持有股票的收益,并将实时特征子集出现时用户执行的股票操作以及用户持有股票的收益进行分析;

若实时特征子集出现时用户执行的股票操作为停止持有,或者用户持有股票的收益为减少趋势,则将对应实时特征子集判定为负效应,并将对应实时特征子集在样本效应集合内的对应子集标记为0;若实时特征子集出现时用户执行的股票操作为继续持有,且用户持有股票的收益为增长趋势,则将对应实时特征子集判定为正效应,并将对应实时特征子集在样本效应集合内的对应子集标记为1;将金融样本集合内所有子集进行分析构建样本效应集合,且金融样本集合与样本效应集合的子集位置一一对应;将完成构建的金融样本集合与对应的样本效应集合一同发送至实时特征核查分析单元;

实时文本特征初选单元的运行过程如下:

将待初选的金融文本进行特征初选,将待初选的金融文本内语气词进行删除;完成语气词删除后将待初选金融文本按照文本内的断句进行文本语句提取,完成文本语句提取后将各个文本语句内存在的词语进行分析,若对应文本语句内存在金融行业术语,则将对应文本语句标记为存特征语句,并根据存特征语句汇总构建成初特征文本,且初特征文本内存特征语句断句方式与待初选金融文本断句方式一致;若对应文本语句内不存在金融行业术语,则将对应文本语句标记为无特征语句,并根据无特征语句汇总构建成无特征文本;将初特征文本发送至实时文本特征精选单元;

实时文本特征精选单元的运行过程如下:

将初特征文本内各个存特征语句进行分析,将存特征语句内存在的金融行业术语进行提取,并将其标记为初特征词;获取到金融行业内用户将初特征词作为参考值的频率以及金融行业内初特征词出现后用户进行股票操作的频率:若金融行业内用户将初特征词作为参考值的频率超过作参考频率阈值,且金融行业内初特征词出现后用户进行股票操作的频率超过操作频率阈值,则将对应初特征词标记为精特征词,精特征词对应的存特征语句标记为精选特征语句;若金融行业内用户将初特征词作为参考值的频率未超过作参考频率阈值,或者金融行业内初特征词出现后用户进行股票操作的频率未超过操作频率阈值,则将对应初特征词标记为非精特征词,非特征词对应的存特征语句标记为非精选特征语句;将初特征文本内非精选特征语句进行排除且将精选特征语句进行保留,并根据保留的精选特征语句构建精选特征文本,随后将精选特征文本发送至实时特征核查分析单元;

实时特征核查分析单元的运行过程如下:

在获取到金融样本集合和精选特征文本后,将金融样本集合与精选特征文本进行子集比对,并将比对一致的子集标记为核查样本特征,根据核查样本特征构建核查样本集合,将核查样本集合进行重要性分析,采集到核查样本集合内子集对应特征出现后用户进行股票操作的次数以及对应股票操作的正确频率;通过分析获取到核查样本集合的子集重要性分析系数X,将核查样本集合内各个子集对应重要性系数进行平均值计算,并将获取的平均值标记为样本平均重要性系数;

随后将核查样本集合内择一子集进行排除,且将核查样本集合内当前排除子集以外的子集进行平均重要性系数计算,将当前平均重要性系数与样本平均重要性系数进行差值计算获取到子集重要性差值;在核查样本集合内子集均获取到对应子集重要性差值后进行核查样本集合内子集重要性排序,且排序方式以子集对应子集重要性差值数值从大到小的顺序进行排序,并将完成排序的核查样本集合作为用户参考文本;且用户参考顺序为核查样本内子集的排列顺序;

有效性分析单元的运行过程如下:

将用户参考文本对应的核查样本集合进行分析,采集到核查样本集合内子集的数量以及子集对应重要性系数分析的间隔时长:若核查样本集合内子集的数量超过子集数量阈值,且子集对应重要性系数分析的间隔时长未超过间隔时长阈值,则判定对应核查样本集合合格,生成有效性分析合格信号并将有效性分析合格信号发送至实时特征核查分析单元;若核查样本集合内子集的数量未超过子集数量阈值,或者子集对应重要性系数分析的间隔时长超过间隔时长阈值,则判定对应核查样本集合不合格,生成有效性分析不合格信号并将有效性分析不合格信号发送至实时特征核查分析单元;

文本情感分析单元的运行过程如下:

将用户参考文本对应核查样本集合进行分析,获取到核查样本集合内子集特征对应的精选特征语句,且获取到核查样本集合内子集特征对应样本效应集合的子集;若核查样本集合内子集特征对应样本效应集合的子集为0,则将核查样本集合内子集特征对应的精选特征语句标记为初选负影响语句;若核查样本集合内子集特征对应样本效应集合的子集为

1,则将核查样本集合内子集特征对应的精选特征语句标记为初选正影响语句;

将初选负影响语句和初选正影响语句进行分析:若初选负影响语句内存在转折词,则将对应初选负影响语句标记为选中正影响语句;若初选负影响语句内存在递进词,则将对应初选负影响语句标记为选中负影响语句;若初选正影响语句内存在转折词,则将对应初选正影响语句标记为选中负影响语句;若初选正影响语句内存在递进词,则将对应初选正影响语句标记为选中正影响语句;采集到用户参考文本内选中负影响语句和选中正影响语句数量,若用户参考文本内选中负影响语句数量超过选中正影响语句数量,或者选中负影响语句与选中正影响语句的数量比值超过对应比值阈值,则将对应参考文本标记为负影响文本;若用户参考文本内选中负影响语句数量未超过选中正影响语句数量,且选中负影响语句与选中正影响语句的数量比值未超过对应比值阈值,则将对应参考文本标记为正影响文本。