1.一种基于粗糙集理论的度量可视化工具的实现方法,其特征在于,所述度量可视化工具将用于属性评价的度量以可视化展示,其以粗糙集模型和邻域分类器为基础,关联四种常用度量:近似质量、条件熵、邻域鉴别指数、邻域决策错误率;步骤如下:(1)解析csv格式文件,结合邻域粗糙集理论求解邻域关系和决策信息:步骤001,用户通过文件上传组件提交需要解析的csv格式文件,所述度量可视化工具解析文件,获取文件中数据的属性名、条件属性、决策属性等信息;
步骤002,由步骤001解析出的数据信息,结合拓扑空间中的球形邻域概念,对于包含所有样本的目标数据集合U,用A表示U中条件属性集合,D表示U中决策属性集合,其条件属性子集B上的邻域关系可表示为:上式δ为邻域半径,所述度量可视化工具中,选定0.02至0.2之间,步长为0.02的10个数值作为邻域半径构建目标数据集的10个邻域关系,此外,上式中的x,y分别表示U中任意两点,ΔB(x,y)则表示U中任意两点的欧几里得距离;
步骤003,由步骤002的邻域关系,条件属性子集B中的邻域信息粒可表示为:所述度量可视化工具中构建了10个邻域关系也就有10个邻域信息粒;
步骤004,依据邻域粗糙集模型理论,给定一个决策系统,由条件属性子集 所提供的对样本的描述信息,其不可分辨关系INDB的计算公式为:上式中a∈B,a(x)表示样本x在条件属性B上的取值;
步骤005,利用步骤004获得的不可分辨关系得到样本集合上的一组类别划分,将同类样本集合用下述公式表示:[x]d={y∈U:d(x)=d(y)}
式中d(x)表示样本x的决策属性值;类似地,将异类样本集合用下述公式表示:[x]~d={y∈U:d(x)≠d(y)}
步骤006,使用JavaScript语言实现上述步骤002至步骤005,求解公式中的各参数值;
(2)进行近似质量、条件熵、邻域鉴别指数、邻域决策错误率的可视化过程;
所述步骤(2)中近似质量度量可视化过程具体包括以下步骤:
步骤101,根据步骤006中所求结果,带入近似质量AQ计算公式:近似质量AQ的取值范围在0到1之间,且近似质量越大,条件属性集合越好;
步骤102,将步骤101中计算所得的各属性近似质量作为参数传入ECharts图库的柱状图、折线图和漏斗图组件中,这些可视化图形组件将其渲染在浏览器页面上,通过柱状图高低、折线图起伏和漏斗图的粗细可以直观的获取某些属性近似质量大小,可认为近似质量取值越大的属性表现越好;
步骤103,在步骤102所画三个图表中添加时间轴关联,以10个不同的邻域半径作为时间轴上的动态数据,开发实现三图联动功能,可通过柱状图、折线图、漏斗图的动态变化分析出在不同邻域半径下各属性近似质量的走向趋势,通过观察趋势掌握表现较好邻域半径的取值;
步骤104,近似质量可视化过程结束;
所述步骤(2)中条件熵度量可视化实现具体包括以下步骤:
步骤201,根据步骤006所求结果,带入条件熵CE计算公式:条件熵CE的取值范围在0到|U|/e之间,且条件熵越小,条件属性集合越好;
步骤202,将步骤201中计算所得的各属性条件熵作为参数传入ECharts图库的柱状图、折线图和漏斗图组件中,这些可视化图形组件将其渲染在浏览器页面上,通过柱状图高低、折线图起伏和漏斗图的粗细可以直观的获取某些属性条件熵大小,条件熵取值越小可认为该属性对刻画不同决策类的不确定性表现越好;
步骤203,在步骤202所画三个图表中添加时间轴关联,以10个不同的邻域半径作为时间轴上的动态数据,实现上述三个图表的联动功能;
步骤204,条件熵可视化过程结束;
所述步骤(2)中邻域鉴别指数度量可视化实现具体包括以下步骤:步骤301,根据步骤006所求结果,带入邻域鉴别指数NDI计算公式:邻域鉴别指数NDI的取值范围在0到log|U|之间,且邻域鉴别指数越小,条件属性集合越好;
步骤302,将步骤301中计算所得的各属性邻域鉴别指数作为参数传入ECharts图库的柱状图、折线图和漏斗图组件中,这些可视化图形组件将其渲染在浏览器页面上,通过页面展示结果可以发现对于邻域鉴别指数小的属性,可认为其对于不同决策类的鉴别能力表现较好;
步骤303,在步骤302所画三个图表中添加时间轴关联,以10个不同的邻域半径作为时间轴上的动态数据,实现上述三个图表的联动功能;
步骤304,邻域鉴别指数可视化过程结束;
所述步骤(2)中领域决策错误率度量可视化实现具体包括以下步骤:步骤401,根据步骤006所求结果,带入邻域决策错误率NDER计算公式:上式中, 表示由邻域分类器所得样本x的预测标签,邻域决策错误率NDER的取值范围在0到1之间,且邻域决策错误率越小,条件属性集合越好;
步骤402,将步骤401中计算所得的各属性邻域决策错误率作为参数传入ECharts图库的柱状图、折线图和漏斗图组件中,这些可视化图形组件将其渲染在浏览器页面上,通过动图可以认为那些邻域决策错误率取值小的属性,它们在邻域分类器下的分类表现较好;
步骤403,在步骤402所画三个图表中添加时间轴关联,以10个不同的邻域半径作为时间轴上的动态数据,实现上述三个图表的联动功能;
步骤404,邻域鉴别指数可视化过程结束。
2.根据权利要求1所述的一种基于粗糙集理论的度量可视化工具的实现方法,其特征在于,所述度量可视化工具在绘制出整体近似质量和条件熵的同时还实现了局部近似质量和条件熵的可视化,以局部视角考虑当前决策类中的样本,忽略当前决策类外的样本。
3.根据权利要求1所述的一种基于粗糙集理论的度量可视化工具的实现方法,其特征在于,该方法还可实现数据分布散点图显示的可视化,步骤如下:步骤501,与上述步骤001相同,获取目标数据集的所有信息;
步骤502,将步骤501所得的数据集信息作为参数传入ECharts图库的单轴散点图组件中,可视化图形组件根据数值将其渲染在浏览器页面上,不同类别的数据根据散点的大小区分,不同属性使用不同颜色区分,通过单轴散点图可以直观的发现某一属性上数据点散落的位置,能快速准确的捕获不同类别数据值分布的关键信息;
步骤503,数据分布散点图可视化过程结束。
4.根据权利要求1所述的一种基于粗糙集理论的度量可视化工具的实现方法,其特征在于,该方法还可实现数据集表格化展示的可视化,步骤如下:步骤601,与上述步骤001相同,获取目标数据集的所有信息;
步骤602,使用基于浏览器DOM对象处理的JQuery插件完成在页面创建表格元素的功能,将步骤601获取的数据信息以往浏览器页面追加DOM元素的方式绘制出数据表格;
步骤603,数据表格可视化过程结束。