买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于改进K近邻的网站用户分类方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于改进K近邻的网站用户分类方法

￥26000

专利号： 2021100824073

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于改进K近邻的网站用户分类方法，其特征在于：包括：

1)获取网站用户的原始数据，所述原始数据为各网站用户对应的多种数据类型的数据，并将其转换为m×n的二维矩阵X，X＝(xij)m×n；

其中，xij为第i个用户第j种数据类型的元素值；i∈[1，m]，i为用户序号，记为类数，m为用户总数；j∈[1，n]，j为数据类型序号，记为类别数，n为数据类型总数；

2)对所述二维矩阵X按数据类型进行类归一化处理，得到m×n的二维矩阵R，R＝(rij)m×n，rij为第j个类别数下第i个类的元素值；所述类归一化处理的计算公式如下：rij＝(ymax‑ymin)*(xij‑xmin)/(xmax‑xmin)+ymin其中，rij为第j个类别下第i个类的元素值；xij是二维矩阵X中第j个类别下第i个类的元素值；xmin为二维矩阵X中最小值；xmax为二维矩阵X中最大值；ymax和ymin分别取1和‑1，则矩阵中每一个元素值被归一化到[‑1,1]之间；

3)确定所述二维矩阵R中各数据类型的熵权重；

4)基于所述各数据类型的熵权重，采用K近邻算法对二维矩阵R进行聚类，得到网站用户分类结果，包括如下具体步骤：

4.1)选定已知分类点作为种子点，从而通过已知分类点的种子点，来确定未知分类点的具体分类情况；首先根据经验公式来确定K近邻算法中关键参数K，通过计算公式确定参数K的选定范围，然后利用实验法选择最优的参数K；

4.2)将步骤3)中计算得出的熵权重代入如下公式中，计算未知分类点到所有已知分类点的加权熵距离：其中，λ为未知分类点到所有已知分类点的加权熵距离；l为未知分类点到所有已知分类点的实际距离；Wj为第j个类别的熵权重；

所述未知分类点与所有已知分类点的实际距离采用欧几里得距离，所述未知分类点与所有已知分类点的距离l的计算公式为：其中，zo为第o已知分类点的元素值；z为未知分类点的元素值；s为已知分类点的总数，o为已知分类点序号；

4.3)将步骤4.2)中得出的λ加权熵距离进行排序，与K个已知分类点进行比较，其中K的取值与步骤4.1)中参数K的取值保持一致；

4.4)利用投票法则进行投票，根据少数服从多数的原则，让未知分类点归类为K个最邻近样本中最多数的类别，并让未知分类点的分类结果跟随最多数类别从属的分类结果，完成网站用户分类过程。

2.根据权利要求1所述的基于改进K近邻的网站用户分类方法，其特征在于：步骤1)中，所述二维矩阵X的具体形式如下：其中，xij为第j个类别下第i个类的元素值。

3.根据权利要求1所述的基于改进K近邻的网站用户分类方法，其特征在于：所述二维矩阵R的具体形式如下：其中，rij为第j个类别下第i个类的元素值。

4.根据权利要求1～3任一所述的基于改进K近邻的网站用户分类方法，其特征在于：步骤3中，所述二维矩阵R中各数据类型的熵权重的确定方法包括如下步骤：先按下式计算第j个类别下第i个类元素值的比重Pij：

再按下式计算第j个类别的熵值Ej：

其中，k＝1/lnm；

最后按下式计算第j个类别的熵权重Wj：

5.根据权利要求1所述的基于改进K近邻的网站用户分类方法，其特征在于：步骤1中，所述数据类型包括用户的年龄、访问网页的次数、访问的时间、浏览停留的时间和是否参与了网站互动。

6.根据权利要求1所述的基于改进K近邻的网站用户分类方法，其特征在于：步骤1)中，所述原始数据从网站数据库中调取。

推荐专利

一种基于MPI并行化的参考点k近邻分类方法

发明专利

￥21000

一种基于RSSI的K近邻差分修正质心定位方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们