1.适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:其步骤为:步骤1)、从目标数据库获得时间序列数据,将序列以数据类型分类,得文本数据和数值数据;
步骤2)、数值数据以时间粒度分类,得宏观时间序列数据和微观时间序列数据;宏观数据标准化后,计算样本与行业标准数据的相似度,将归一化后的相似度作为D‑S证据理论的输入进行证据融合,得类特征;
具体方法如下:
2.1)将数值型时间序列数据根据时间粒度进行分类,分成大时间粒度的宏观数据Tg、以及小时间粒度的微观数据Ts;其中,宏观数据包括多个来源的时间序列数据,即用从不同角度反映企业经营状况的财务数据和市场数据,微观数据只包含一类时间序列数据,即衡量企业经营能力的最主要指标数据;
2.2)对于宏观数据,将数据利用z‑规范化进行标准化,再计算样本与根据波士顿矩阵分类的行业及行业标准数据之间的欧式距离,公式为其中 m为一条时间序列的数据个数,δx为X的方差,δy为Y的方差、μx为X的均值、μy为Y的均值,X指的是标准化后的样本数据,Y指的是标准数据,x指的是任一条X时间序列的某一时刻的具体数值,y则是任一条Y时间序列的某一时刻的具体数值;
2.3)对数据进行归一化处理,将归一化后的距离权重作为D‑S证据理论矩阵的输入,然后根据D‑S证据理论原理进行证据融合以得到新的综合支持度ωi,i指行业第i个分类;
2.4)根据得到的新的综合支持度,得到宏观层次上样本所属类别的综合权重,可以衡量时间序列的分类特征;
步骤3)、设已获得标准时间序列的最佳shapelet集合,计算微观数据样本与各shapelet的距离,得趋势特征;
步骤4)、文本数据,先用词袋模型获得高频词汇集,再使用改进的TF‑IDF对该词汇集进行二次过滤,获得热点词汇;
步骤5)、若有新数据则用滑动窗口重新执行步骤1‑4;无新数据则停止。
2.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:所述的步骤1)中,具体方法如下:
1.1)获取源数据:从企业数据库或者相应政府的公共数据库获取时间序列数据;
1.2)将数据根据数据类型进行分类,分为数值型时间序列数据和文本型时间序列数据;
1.3)针对新来的数据则利用滑动窗口原理形成新的分类数据源。
3.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:所述的步骤3)中,具体方法如下:
3.1)对于微观时间序列数据,假设已经获得标准数据的k个shapelet记为S=
3.2)计算权重ui=Li/(L1+L2+...+Lk);
3.3)用得到的权重乘以距离的倒数再相加,根据距离的意义和shapelet的性质则可以得到微观数据的趋势特征。
4.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:所述的步骤4)中,具体方法如下:
4.1)对于文本时间序列,将各个文档按照获得的时间加上时间属性,即有包含多个文档的数据集D={(t1,d1),(t2,d2)...(tn,dn)},其中(t1,d1)指文档d1的时间属性为t1;
4.2)对文本数据使用词袋模型统计出高频词汇集:对各文档分词之后进行词频统计,设定词袋的最大容量为MAX_f,设定词的最低频率为min_df,用于过滤掉未出现在任何文档以及出现次数很少的词,词的最大频率为max_df,用于过滤掉出现频率异常多的词;经过词袋模型则形成高频词汇集dictionary;
4.3)基于dictionary,计算TFi,TFi为第i篇文档中且在dictionary里的词的词频信息,且根据文档的时间属性,将一篇文档所形成的TF向量再乘以该文档时间权重λi,其中时间越新权重越大,得TFi’,TFi’为考虑了文档的时间属性后,更正后的第i篇文档的词频向量;
4.4)计算逆文档频率IDF,计算公式为IDF(a)=ln((1+n)/na),其中a指一个词,n指文档总数,na指词a出现的文档总数;将结合各文档的TF’向量和词集的IDF就得到dictionary内的词在整个D内考虑了时间属性的频率δj,设置阈值min_dic用于再次过滤δj小于min_dic的词,最终得到最近的高频词汇;其中δj指第j个词的最终频率信息。
5.根据权利要求1所述的适用于文化科技融合领域时间序列数据的特征提取方法,其特征在于:所述的步骤5)中,具体方法如下:
5.1)存储获得的特征和热点词汇;
5.2)若有新获得的数据则利用滑动窗口原理重新执行步骤1‑4,否则停止处理。