全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211339529.7 (22)申请日 2022.10.25 (71)申请人 广州市玄武无线科技股份有限公司 地址 510000 广东省广州市天河区高普路 1021号501室6383号 (72)发明人 吴文亮 林沛欣 关梓文 许洁斌  (74)专利代理 机构 广州骏思知识产权代理有限 公司 44425 专利代理师 张金龙 王晶 (51)Int.Cl. G06F 16/215(2019.01) G06N 3/04(2006.01) G06Q 10/06(2012.01) G06F 40/284(2020.01) G06F 40/289(2020.01) (54)发明名称 终端重复数据的确定方法、 装置、 设备和计 算机存储介质 (57)摘要 本发明提供了一种终端重复数据的确定方 法、 装置、 设备和计算机存储介质, 该方法包括: 获取逻辑回归模 型, 逻辑回归模 型包括输入层和 输出层, 且输入层包括线性回归函数, 输出层包 括神经元激活函数; 获取终端数据, 并对终端数 据依次进行数据清洗和特征提取, 得到预处理终 端数据; 利用预处理终端数据对逻辑回归模型进 行优化, 得到改进的逻辑回归模型; 利用分组函 数对预处理终端数据进行分组, 得到多个预处理 终端数据组; 利用同一预处理终端数据组中的任 意两个终端数据建立终端数据对, 并将多个预处 理终端数据组的终端数据对输入改进的逻辑回 归模型, 得到终端数据对为重复数据的预测值, 确定预测值大于阈值的终端数据对为重复数据, 提高了确定效率。 权利要求书3页 说明书10页 附图2页 CN 115408379 A 2022.11.29 CN 115408379 A 1.终端重复数据的确定方法, 其特 征在于, 包括如下步骤: S1: 获取逻辑回归模型, 所述逻辑 回归模型包括输入层和输出层, 且所述输入层包括线 性回归函数, 所述输出层包括神经 元激活函数; S2: 获取终端数据, 并对终端数据依次进行数据清洗和特征提取, 得到预处理终端数 据; S3: 利用预处 理终端数据对所述逻辑回归 模型进行优化, 得到改进的逻辑回归 模型; S4: 利用分组函数对预处理终端数据进行分组, 得到多个预处理终端数据组, 且所述分 组函数包括整个字符分组函数、 相同数字 分组函数、 相 邻两字符分组函数、 相 邻三字符分组 函数和经纬度谓词分组函数中的至少一种; S5: 利用同一预处理终端数据组中的任意两个终端数据建立终端数据对, 并将多个预 处理终端 数据组的终端数据对分别输入改进的逻辑回归模型, 得到每个终端 数据对为重复 数据的预测值, 确定预测值大于阈值的终端数据对为重复数据。 2.根据权利要求1所述的终端重复数据的确定方法, 其特征在于, 步骤S2中, 对终端数 据依次进行 数据清洗和特 征提取包括: S21: 利用去除终端数据中的特殊字符、 去除终端数据中的空值、 统一终端数据中的字 母大小写中的至少一种方法对终端数据进行 数据清洗; S22: 对经过数据清洗的终端数据进行分词 处理, 获取终端数据的特征, 且特征包括终 端的名称、 终端的经度、 终端的纬度、 终端的联系人、 终端的拼音、 终端的联系方式中的至少 一种。 3.根据权利要求2所述的终端重复数据的确定方法, 其特 征在于, 步骤S3包括: S31: 利用预处 理终端数据中的任意两个终端数据建立数据对, 得到多个终端数据对; S32: 利用终端数据的特 征获取每 个终端数据对为重复数据的预测值和真实值; S33: 利用终端数据对为重复数据的真实值和预测值计算损失函数, 并利用损失函数对 所述逻辑回归 模型进行优化, 得到改进的逻辑回归 模型。 4.根据权利要求3所述的终端重复数据的确定方法, 其特征在于, 步骤S32中, 利用终端 数据的特 征获取每 个终端数据对为重复数据的预测值包括: S321: 利用相似度函数计算终端数据对中特征的相似度值, 且所述相似度函数包括余 弦相似度函数、 半正矢相似度函数和仿间缝隙距离相似度函数中的至少一种; S322: 将终端数据对的特征相似度值输入所述输入层的线性回归函数, 得到该终端数 据对的相似度值 , 且相似度值 为: , 其中: 为线性回归函数权 重的转置, 为第i个特 征的相似度值, b为线性回归函数的系数; S323: 将终端数据对的相似度值 输入所述输出层的神经元激活函数, 得到该终端数 据对为重复数据的预测值x, 即: , 其中: x的取值 为[0,1]。 5.根据权利要求4所述的终端重复数据的确定方法, 其特征在于, 步骤S32中, 利用终端 数据的特征获取每个终端 数据对为重复数据的真实值为: 当终端 数据对的两个终端数据的权 利 要 求 书 1/3 页 2 CN 115408379 A 2特征相同时, 该终端数据对为重复数据的真实值y为1; 当终端数据对的两个终端数据的特 征不相同时, 该终端数据对为重复数据的真实值y为0 。 6.根据权利要求5所述的终端重复数据的确定方法, 其特征在于, 步骤S33中, 损失函数 为 , 其计算公式为: , 其中: 为第i个终端数据对为重复数据的真实值; 为第i个终端数据对为重复数据的预测 值; 为第i个终端数据对为重复数据的概 率。 7.根据权利要求6所述的终端重复数据的确定方法, 其特征在于, 步骤S33中, 利用损失 函数对所述逻辑回归模型进行优化为利用损失函数对所述逻辑回归模型的权重采用随机 梯度下降法进行优化, 包括: S331: 计算损失函数的梯度 , 且 , 其中: 为第i个 终端数据对为重复数据的真实值; 为第i个终端数据对为重复数据的预测值; 为 第i个终端数据对为重复数据的概 率; S332: 利用损失函数的梯度 对权重进行更新, 即: , 其中: 为 第i个终端数据对第(k+1)次迭代时的权重; 为第i个终端数据对k次迭代时的权重; 为常数, 其取值 为0.01或0.1或1.0 。 8.终端重复数据的确定装置, 其特 征在于, 包括: 第一获取模块, 用于获取逻辑 回归模型, 所述逻辑 回归模型包括输入层和输出层, 且所 述输入层包括线性回归函数, 所述输出层包括神经 元激活函数; 第二获取模块, 用于获取终端数据, 并对终端数据依次进行数据清洗和特征提取, 得到 预处理终端数据; 优化模块, 用于利用预处理终端数据对所述逻辑回归模型进行优化, 得到改进的逻辑 回归模型; 分组模块, 用于利用分组函数对预处理终端数据进行分组, 得到多个预处理终端数据 组, 且所述分组函数包括整个字符分组函数、 相同数字分组函数、 相邻两字符分组函数、 相 邻三字符分组函数和经纬度谓词分组函数中的至少一种; 确定模块, 用于利用同一预处理终端数据组中的任意两个终端数据建立终端数据对, 并将多个预处理终端 数据组的终端数据对分别输入改进的逻辑回归模型, 得到每个终端 数 据对为重复数据的预测值, 确定预测值大于阈值的终端数据对为重复数据。 9.终端重复数据的确定设备, 其特 征在于, 包括: 处理器; 存储器, 用于存 储由所述处 理器执行的计算机程序; 其中, 所述处理器执行所述计算机程序时实现权利要求1 ‑7中任一项所述的终端重复权 利 要 求 书 2/3 页 3 CN 115408379 A 3

PDF文档 专利 终端重复数据的确定方法、装置、设备和计算机存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 终端重复数据的确定方法、装置、设备和计算机存储介质 第 1 页 专利 终端重复数据的确定方法、装置、设备和计算机存储介质 第 2 页 专利 终端重复数据的确定方法、装置、设备和计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。