利索能及
我要发布
收藏
专利号: 2018105878862
申请人: 东软集团股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-04-27
缴费截止日期: 2025-07-08
联系人

摘要:

权利要求书:

1.一种页面数据提取方法,其特征在于,所述方法包括:接收用户输入的提取数据的属性名称以及提取模式,所述提取模式包括精确提取模式及联想提取模式;

根据所述提取模式以及所述用户在HTML页面中选择的目标网页元素,确定元素位置特征;

按照所述元素位置特征提取所述HTML页面中的网页数据;

根据所述属性名称及提取的网页数据生成输出数据进行输出。

2.根据权利要求1所述的方法,其特征在于,所述用户输入的提取模式为所述精确提取模式,根据所述提取模式以及所述用户在HTML页面中选择的目标网页元素,确定元素位置特征,包括:生成所述目标网页元素对应的文档对象模型DOM节点的层叠样式表CSS选择器,以确定所述元素位置特征。

3.根据权利要求1所述的方法,其特征在于,所述用户输入的提取模式为所述联想提取模式,根据所述提取模式以及所述用户在HTML页面中选择的目标网页元素,确定元素位置特征,包括:确定所述用户在所述HTML页面中选择的第一目标网页元素和第二目标网页元素;

生成所述第一目标网页元素对应的DOM节点的CSS选择器,记为第一位置字符串;

生成所述第二目标网页元素对应的DOM节点的CSS选择器,记为第二位置字符串;

从字符串尾部开始比对所述第一位置字符串与所述第二位置字符串,确定第一处字符不同的目标位置;

从所述第一位置字符串中移除所述目标位置对应的选择器表达式,得到第三位置字符串;

根据所述第三位置字符串,确定所述元素位置特征。

4.根据权利要求1-3任一所述的方法,其特征在于,按照所述元素位置特征提取所述HTML页面中的网页数据,包括:接收所述用户输入的提取数据的元素属性;

按照所述元素位置特征及所述元素属性提取所述HTML页面中的网页数据。

5.根据权利要求1-3任一所述的方法,其特征在于,根据所述属性名称及提取的网页数据生成输出数据进行输出,包括:根据提取的网页数据的属性信息,配置输出数据格式;

根据所述属性名称及提取的网页数据,并按照所述输出数据格式,生成输出数据进行输出。

6.一种页面数据提取装置,其特征在于,所述装置包括:接收模块,用于接收用户输入的提取数据的属性名称以及提取模式,所述提取模式包括精确提取模式及联想提取模式;

确定模块,用于根据所述提取模式以及所述用户在HTML页面中选择的目标网页元素,确定元素位置特征;

提取模块,用于按照所述元素位置特征提取所述HTML页面中的网页数据;

输出模块,用于根据所述属性名称及提取的网页数据生成输出数据进行输出。

7.根据权利要求6所述的装置,其特征在于,所述接收模块接收用户输入的提取模式为所述精确提取模式,所述确定模块包括:第一生成模块,用于生成所述目标网页元素对应的文档对象模型DOM节点的层叠样式表CSS选择器,以确定所述元素位置特征。

8.根据权利要求6所述的装置,其特征在于,所述接收模块接收用户输入的提取模式为所述联想提取模式,所述确定模块包括:第一确定子模块,用于确定所述用户在所述HTML页面中选择的第一目标网页元素和第二目标网页元素;

第二生成模块,用于生成所述第一目标网页元素对应的DOM节点的CSS选择器,记为第一位置字符串;

第三生成模块,用于生成所述第二目标网页元素对应的DOM节点的CSS选择器,记为第二位置字符串;

第二确定子模块,用于从字符串尾部开始比对所述第一位置字符串与所述第二位置字符串,确定第一处字符不同的目标位置;

移除模块,用于从所述第一位置字符串中移除所述目标位置对应的选择器表达式,得到第三位置字符串;

第三确定子模块,用于根据所述第三位置字符串,确定所述元素位置特征。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

10.一种电子设备,其特征在于,包括:

存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。