1.一种用于数据标准化的人工智能系统,其特征在于,包括数据处理模块(100)、数据标准化模块(200)、数据混淆分析模块(300)和数据划分模块(400);
所述数据处理模块(100)通过API接口协议获取借款人信息,分别通过格式字符串和字符串替换法统一借款人信息,所述数据标准化模块(200)用于建立借款人信息对应的数据集合,通过Z‑score标准化方法对数据集合标准化处理,采用异常数值界定法判断数据集合中的异常数值;
所述数据混淆分析模块(300)运用相似度对比法判断异常数值是否因数据处理模块(100)中字符串替换法引起的,若为字符串替换法引起的,则说明字符串替换法此时将字符与数字混淆,并将对异常数值重新替换,若不为字符串替换法引起的,则说明数据标准化模块(200)中异常数值正常;
所述数据混淆分析模块(300)运用相似度对比法的步骤如下:接收所述数据标准化模块(200)中判断异常数值对应的数据和所述数据处理模块(100)中替换的数字字符,基于学习模型设定相似度阈值,判断替换的字符是否与数值相似;
相似时,将替换的字符转换为数值,再通过所述数据标准化模块(200)判断数值是否异常,同理,可判断异常数值是否因数值与字符相似而造成的数值异常;
基于学习模型设定相似度阈值k的步骤如下:
接收已知相似和不相似的字符A和与其对应的数值B;
分别相似和不相似中A和B相同位置像素相同的数量:其中,Aij和Bij分别为A和B在i行第j列的像素值,I为指示函数,如果像素值相同则为1,否则为0;
字符形状相似度计算公式为:
比较相似和不相似对应字符和数值相似度分布情况,确定相似度阈值k;
接收数据标准化模块(200)中判断异常数值对应的数据A1和所述数据处理模块(100)中数据对应替换的字符B1;
根据字符形状相似度A1和B1的相似度;
接收设定的相似度阈值k;
若Similarityshape≥k,则输出将替换的字符转换为数值或将数值替换为字符;
若Similarityshape<k,则说明所述数据处理模块(100)替换字符未混淆;
所述数据划分模块(400)包括未混淆数据判断单元(410)和重新划分单元(420);
所述未混淆数据判断单元(410)用于接收所述数据混淆分析模块(300)判断的若不为字符串替换法引起的异常数值数量,则通过基于索引位置判断异常数值在数据集合中是否相邻,并设定数量阈值,且相邻异常数值的数量>数量阈值时,则说明数据集合中数据混淆;
所述重新划分单元(420)用于接收数据混淆信号,并通过所述数据标准化模块(200)中异常数值界定法对混淆数据重新划分,重新划分后,再次将数据标准化处理,并输出标准化数据至工作人员。
2.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据处理模块(100)用于向银行信息系统发送数据请求和API密钥,数据请求中包含借款人账户信息、借款人信用报告、日期格式信息和借款人自行提交的财务信息,银行信息系统接收到请求后,将API密钥与合法密钥对比,若API密钥=合法密钥时,则表明验证成功,此时银行信息系统根据借款人身份信息调出借款人账户信息、借款人信用报告、日期格式信息和借款人自行提交的财务信息。
3.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据处理模块(100)通过格式字符串和字符串替换法统一日期格式信息和数值型信息的步骤如下:借款人信息分为日期格式信息和数值型信息;
接收银行信息系统中的日期格式信息,通过格式字符串将日期格式信息中的日期字符串;
按照格式字符串的定义进行分组和理解;
格式字符串按照定义顺序寻找对应的年份、月份和日期部分;
将日期格式信息统一处理;
通过字符串替换法统一数值型信息的步骤如下:
建立不必要单位和字符的替换集合;
从数值型信息中的字符开头开始逐个与替换集合中的字符对比,若数值型信息中的字符=替换集合中的字符,则将数值型信息中字符去除;
若数值型信息中的字符≠替换集合中的字符,则将数值型信息中字符保留。
4.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据标准化模块(200)通过Z‑score标准化方法对借款人信息标准化的步骤如下:接收所述数据处理模块(100)中借款人账户信息,借款人信用、日期格式信息和借款人自行提交的财务信息,按照日期格式信息进行先后顺序排序,分别建立与日期格式信息对应的数据集合;
接收数据集合:X={x1,x2,…xn},其中某个数据为x,Z‑score的计算公式为:其中,z是标准化后的Z‑score值,x是原始数据点的值,μ是该数据集合的均值,μ的计算公式如下:σ是该数据集合的标准差,表示数据的离散程度,计算公式如下:
5.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据标准化模块(200)判断标准化后数据集合是否存在异常数值的步骤如下:接收数据集合标准化后的Z‑score值、均值和对应的标准差;
异常数值界定法:
设定异常数值界定;
计算均值μ处于标准差σ的离散程度,设定区分值为90%;
若90%的数据点落在均值μ加减3倍标准差σ的范围内,则区间为(μ‑3σ,μ+3σ),若90%的数据点落均值μ加减2倍标准差σ的范围内,则区间为(μ‑2σ,μ+2σ),反之处于此范围之外的数据点被视为异常数值;
异常数值判断:
取区间(μ‑3σ,μ+3σ);
当|z|>3时,对应的x值则为异常数值。
6.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述未混淆数据判断单元(410)基于索引位置判断异常数值在与其对应数据集合中是否相邻的步骤如下:所述数据标准化模块(200)数据集合按照日期格式信息先后顺序排序;
对于多个异常数据,选取一个异常数据作为索引h;
若剩余的异常数据分别与h分别为h+1…、h‑1…;
则说明在数据标准化模块(200)数据集合中多个异常数据为相邻数据;
设定数量阈值,数量阈值≥2;
相邻异常数值的数量>数量阈值时,则说明数据集合中数据混淆。
7.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述重新划分单元(420)通过所述数据标准化模块(200)中异常数值界定法重新划分异常数据的步骤如下:接收数据混淆信号,通过数据处理模块(100)中的API接口协议获取对应借款人的历史信息,通过所述数据处理模块(100)中的格式字符串和字符串替换法分别统一历史信息;
通过所述数据标准化模块(200)异常数值界定法计算与异常数据对应历史数据的界定值;
若异常数据处于界定值内,则重新划分异常数据,而后将尚未重新划分的异常数据依次划分;
划分完成,通过所述数据标准化模块(200)再次将数据标准化处理,并输出至工作人员,供工作人员对借款人评估。