利索能及
我要发布
收藏
专利号: 2021100824073
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于改进K近邻的网站用户分类方法,其特征在于:包括:

1)获取网站用户的原始数据,所述原始数据为各网站用户对应的多种数据类型的数据,并将其转换为m×n的二维矩阵X,X=(xij)m×n;

其中,xij为第i个用户第j种数据类型的元素值;i∈[1,m],i为用户序号,记为类数,m为用户总数;j∈[1,n],j为数据类型序号,记为类别数,n为数据类型总数;

2)对所述二维矩阵X按数据类型进行类归一化处理,得到m×n的二维矩阵R,R=(rij)m×n,rij为第j个类别数下第i个类的元素值;所述类归一化处理的计算公式如下:rij=(ymax‑ymin)*(xij‑xmin)/(xmax‑xmin)+ymin其中,rij为第j个类别下第i个类的元素值;xij是二维矩阵X中第j个类别下第i个类的元素值;xmin为二维矩阵X中最小值;xmax为二维矩阵X中最大值;ymax和ymin分别取1和‑1,则矩阵中每一个元素值被归一化到[‑1,1]之间;

3)确定所述二维矩阵R中各数据类型的熵权重;

4)基于所述各数据类型的熵权重,采用K近邻算法对二维矩阵R进行聚类,得到网站用户分类结果,包括如下具体步骤:

4.1)选定已知分类点作为种子点,从而通过已知分类点的种子点,来确定未知分类点的具体分类情况;首先根据经验公式来确定K近邻算法中关键参数K,通过计算公式确定参数K的选定范围,然后利用实验法选择最优的参数K;

4.2)将步骤3)中计算得出的熵权重代入如下公式中,计算未知分类点到所有已知分类点的加权熵距离:其中,λ为未知分类点到所有已知分类点的加权熵距离;l为未知分类点到所有已知分类点的实际距离;Wj为第j个类别的熵权重;

所述未知分类点与所有已知分类点的实际距离采用欧几里得距离,所述未知分类点与所有已知分类点的距离l的计算公式为:其中,zo为第o已知分类点的元素值;z为未知分类点的元素值;s为已知分类点的总数,o为已知分类点序号;

4.3)将步骤4.2)中得出的λ加权熵距离进行排序,与K个已知分类点进行比较,其中K的取值与步骤4.1)中参数K的取值保持一致;

4.4)利用投票法则进行投票,根据少数服从多数的原则,让未知分类点归类为K个最邻近样本中最多数的类别,并让未知分类点的分类结果跟随最多数类别从属的分类结果,完成网站用户分类过程。

2.根据权利要求1所述的基于改进K近邻的网站用户分类方法,其特征在于:步骤1)中,所述二维矩阵X的具体形式如下:其中,xij为第j个类别下第i个类的元素值。

3.根据权利要求1所述的基于改进K近邻的网站用户分类方法,其特征在于:所述二维矩阵R的具体形式如下:其中,rij为第j个类别下第i个类的元素值。

4.根据权利要求1~3任一所述的基于改进K近邻的网站用户分类方法,其特征在于:步骤3中,所述二维矩阵R中各数据类型的熵权重的确定方法包括如下步骤:先按下式计算第j个类别下第i个类元素值的比重Pij:

再按下式计算第j个类别的熵值Ej:

其中,k=1/lnm;

最后按下式计算第j个类别的熵权重Wj:

5.根据权利要求1所述的基于改进K近邻的网站用户分类方法,其特征在于:步骤1中,所述数据类型包括用户的年龄、访问网页的次数、访问的时间、浏览停留的时间和是否参与了网站互动。

6.根据权利要求1所述的基于改进K近邻的网站用户分类方法,其特征在于:步骤1)中,所述原始数据从网站数据库中调取。