1.一种数据处理分析的跨境电商数据统计管理方法,其特征在于,包括以下步骤:
S1、建立订单数据存储数据库,并通过HTTP协议与跨境电商平台建立连接,获取电商数据并存储;
S2、基于随机选取逻辑和重复判定逻辑,对订单数据存储数据库中电商数据去重处理,将订单编号相同、但除订单编号外的其他数据不同的电商数据存储至异常数据库;
S3、采用皮尔逊相关系数计算去重后订单数据存储数据库中全部电商数据不同类别的相关系数,并设定相关系数阈值,基于相关系数阈值与相关系数判定电商数据中不同类别之间是否存在关联性,存在关联性时将电商数据中的关联性反馈至工作人员,并判定电商数据中的异常数据,包括对电商数据之间关联性分析完成后,再次通过随机选取逻辑随机选取大于2个的电商数据,计算选取电商数据中不同类别数据之间的相关系数,再次通过相关系数阈值判定不同类别数据之间是否存在关联性,若在通过全部电商数据分析过程中存在关联性,而此时不存在关联性时,则将随机选取的电商数据定义为异常数据集合;
再次随机选取电商数据,在选取的过程中,添加异常数据集合中任意一个电商数据,若此时通过相关系数阈值判定不同类别数据之间存在关联性,则将添加的电商数据从异常数据集合中移除,否则判定添加的电商数据为异常数据,将异常数据从订单数据存储数据库中删除;
S4、选择一个基准订单编号进行排序,将订单数据存储数据库中的电商数据按照订单编号的大小顺序排序,并分析是否存在不连续的订单编号,存在不连续的订单编号时,按照从大到小的顺序对订单编号补充,将补充的订单编号定义为补充编号;
S5、将补充编号与异常数据库中的订单编号对比是否相同、相同订单编号的数量和相邻补充编号的数量是否相同,均相同时,则将异常数据库中的订单编号替换为补充编号,再次分析其中是否存在异常数据。
2.根据权利要求1所述的数据处理分析的跨境电商数据统计管理方法,其特征在于:所述订单数据存储数据库与跨境电商平台建立连接的工作原理如下:所述订单数据存储数据库向跨境电商平台服务器地址发送连接请求,跨境电商平台服务器接收到所述订单数据存储数据库连接请求后,提取请求中的API密钥,服务器在自身存储的API密钥列表查找对比;
若服务器对比发现请求中的API密钥与自身存储的API密钥完全相同,则表明订单数据存储数据库的身份验证成功,获取跨境电商平台中的电商数据,反之则重新发送请求并验证。
3.根据权利要求2所述的数据处理分析的跨境电商数据统计管理方法,其特征在于:所述S2中对所述订单数据存储数据库中电商数据去重处理,具体的步骤如下:步骤一:感知所述订单数据存储数据库中存储电商数据查询订单编号的查询语句,并将查询语句输入至所述订单数据存储数据库中,根据查询语句遍历所述订单数据存储数据库存储的电商数据,调出查询语句对应的订单编号,即为所述订单数据存储数据库中电商数据的订单编号,并定义为订单编号集合;
步骤二:基于随机选取逻辑随机选取一个订单编号集合中的订单编号,将其与未选取的订单编号基于重复判定逻辑对比,判定是否存在相同的编号;
若订单编号集合中未存在与选取订单编号相同的订单编号,则判定所述订单数据存储数据库中存储的电商数据未重复;
步骤三:若存在相同的订单编号,则调出所述订单数据存储数据库中相同订单编号的其他数据,若其他数据仍相同,则删除订单数据存储数据库中选取的订单编号和对应的其他数据,将未删除订单编号对应的电商数据继续存储至订单数据存储数据库;
若其他数据不同时,则将相同的订单编号和订单编号对应的电商数据单独存储至异常数据库;
再次随机选取订单编号集合中未选取的一个订单编号,将其与所述订单编号集合中未对比的订单编号对比,直至所述订单编号集合中的订单编号全部对比完成。
4.根据权利要求3所述的数据处理分析的跨境电商数据统计管理方法,其特征在于:所述随机选取逻辑对应的表达式如下:订单编号集合S,S中共有N个订单编号,通过随机数生成器生成一个随机订单编号r,范围在[0,N‑1]内,选取的订单编号为n=S[r],表示为n=S[random(0,N‑1)],其中random(0,N‑1)表示生成在0到N‑1之间的随机数的函数。
5.根据权利要求4所述的数据处理分析的跨境电商数据统计管理方法,其特征在于:所述重复判定逻辑对应的表达式如下:对于选取的订单编号n1和S中的另一个订单编号nj,判断是否重复表示为n1=nj,对于订单数据集合中的所有订单编号的对比,对除n1外的所有nj进行上述判断,表示为对于 且n1≠nj的订单编号,检查n1=nj是否成立。
6.根据权利要求5所述的数据处理分析的跨境电商数据统计管理方法,其特征在于:判断其他数据是否相同基于数据一致性逻辑表达式如下:对于两个相同订单编号r1和r2,r1和r2的其他数据类型分别记为f1,f2,…,fk,其他数据一致性判断表示为:对于 判断r1(fi)=r2(fi)是否成立,用逻辑表达式表示为:(r1(fi)=r2(f1))∧(r1(f2)=r2(f2))∧…∧(r1(fk)=r2(fk));
其中^表示逻辑与运算,当该表达式结果为true时,其他数据一致;当结果为false时,其他数据不一致。
7.根据权利要求3所述的数据处理分析的跨境电商数据统计管理方法,其特征在于:所述S3中皮尔逊相关系数计算相关系数的工作原理如下:感知订单数据存储数据库中去重处理后的电商数据,并分析全部电商数据相同的类别,计算与不同类别之间的皮尔逊相关系数;
皮尔逊相关系数的计算公式为:
其中,xi和yi为电商数据对应的第i个数值,和 为选取多个电商数据的平均值,m为选取电商数据的数量。
8.根据权利要求7所述的数据处理分析的跨境电商数据统计管理方法,其特征在于:所述S3中判定多个电商数据之间是否存在关联性的工作原理如下:若电商数据之间的相关系数大于相关系数阈值的最大值,则判定电商单数据之间存在关联性,为正线性关联,若相关系数小于相关系数阈值的最小值,则判定电商单数据之间存在关联性,为负线性关联,反之则判定电商单数据之间无线性关联。
9.根据权利要求1所述的数据处理分析的跨境电商数据统计管理方法,其特征在于:所述S4中按照订单编号大小顺序排序,基本思想是选择一个基准订单编号,将小于基准订单编号的订单编号放在左边,大于基准订单编号的编号放在右边,然后对左右两部分分别进行排序;
所述S4中对排序后的订单编号序列进行遍历检查,通过对相邻两个订单编号的差值计算,若相邻订单编号的差值大于1,则判定两个相邻的编号之间并不连续。