全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210625648.2 (22)申请日 2022.06.02 (71)申请人 中邮信息科技 (北京) 有限公司 地址 100037 北京市海淀区增光路5 5号3号 楼1201-1室 (72)发明人 胡晓菁 徐廷 冯媛 周立芳  朱煜民 姚奇灏 何利平 杨雯婷  刘杨 李芸  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 初春 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/23(2019.01) G06K 9/62(2022.01) (54)发明名称 数据扩展方法、 装置及存 储介质 (57)摘要 本发明实施例公开了一种数据扩展 方法、 装 置及存储介质。 该方法包括: 获取目标业务场景 中的参考数据集, 以及与所述目标业务场景关联 的关联业务场景的待扩展数据集; 确定所述参考 数据集中各数据的参考特征数据, 并确定所述参 考特征数据中的目标特征数据; 于所述待扩展数 据集中选取具有所述目标特征数据的第一待扩 展数据, 并将所述第一待扩展数据作为所述目标 业务场景的目标扩展数据。 本发 明实施例中的技 术方案, 实现了更加快速有效的对数据进行扩 展, 从而减少数据扩展的耗时, 进一步提升数据 扩展的效率。 权利要求书2页 说明书12页 附图4页 CN 115017145 A 2022.09.06 CN 115017145 A 1.一种数据扩展方法, 其特 征在于, 包括: 获取目标业务场景中的参考数据集, 以及与所述目标业务场景关联的关联业务场景的 待扩展数据集; 确定所述参考数据集中各数据的参考特征数据, 并确定所述参考特征数据中的目标特 征数据; 于所述待扩展数据集中选取具有所述目标特征数据的第 一待扩展数据, 并将所述第 一 待扩展数据作为所述目标业 务场景的目标扩展数据。 2.根据权利要求1所述的方法, 其特征在于, 确定所述参考特征数据中的目标特征数 据, 包括: 根据所述参考特征数据的重要程度系数, 确定所述参考特征数据中与 所述目标业务场 景关联的正向特 征数据; 基于当前时刻和所述正向特征数据的目标更新 时刻之间的间隔时长, 确定所述正向特 征数据中的目标 特征数据。 3.根据权利要求2所述的方法, 其特征在于, 所述基于当前时刻和所述目标更新时刻 之 间的间隔时长, 确定所述 正向特征数据中的目标 特征数据, 包括: 根据所述当前时刻和所述目标更新 时刻之间的间隔时长, 计算得到所述正向特征数据 的更新度量 值, 其中, 所述更新度量 值用于衡量所述 正向特征数据的更新间隔时长; 从所述更新度量值中选取符合预设度量条件的更新度量值, 作为目标度量值, 并将所 述目标度量 值所对应的正向特 征数据作为目标 特征数据。 4.根据权利要求3所述的方法, 其特征在于, 所述根据所述当前时刻和所述目标更新 时 刻之间的间隔时长, 计算得到所述 正向特征数据的更新度量 值, 包括: 按照下述公式计算得到所述 正向特征数据的更新度量 值: 其中, Xi'表示所述正向特征数据的更新度量值, Xi表示当前时刻和所述正向特征数据 的更新时刻之间的间隔时长 。 5.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 确定所述待扩展数据集中各 数据的待扩展特 征数据; 根据各待扩展特征数据, 于所述待扩展数据集中选取所述目标业务场景的第 二扩展数 据; 所述将所述第一扩展数据作为所述目标业 务场景的目标扩展数据, 包括: 将所述第一扩展数据和所述第二扩展数据中的全部用户作为所述目标业务场景的目 标扩展数据; 或, 将所述第一扩展数据和所述第二扩展数据中的公有用户作为所述目标业务场景的目 标扩展数据。 6.根据权利要求5所述的方法, 其特征在于, 所述根据各待扩展特征数据, 于所述待扩 展数据集中选取 所述目标业 务场景的第二扩展数据, 包括: 将所述目标 特征数据进行聚类处 理, 得到聚类中心; 计算各待扩展特 征数据与所述聚类中心之间的数据距离;权 利 要 求 书 1/2 页 2 CN 115017145 A 2基于各数据距离, 于所述待扩展数据集中选取 所述目标业 务场景的第二扩展数据。 7.根据权利要求5所述的方法, 其特征在于, 所述根据各待扩展特征数据, 于所述待扩 展数据集中选取 所述目标业 务场景的第二扩展数据, 包括: 将所述待扩展特征数据分别输入到针对不同扩展维度进行数据扩展的数据扩展模型 中, 得到各 数据扩展模型输出的数据扩展值; 对各数据扩展值进行加权平均处理, 得到目标扩展值, 根据 所述目标扩展值, 于所述待 扩展数据集中选取 所述目标业 务场景中的第二扩展数据。 8.根据权利要求7 所述的方法, 其特 征在于, 所述方法还 包括: 针对每个扩展维度的初始网络模型, 获取样本数据和与 所述样本数据对应的期望输出 数据, 其中, 所述样本数据包括正样本数据和负样本数据, 所述正样 本数据包括所述参考特 征数据, 所述负 样本数据为除所述目标业 务场景之外的其 他业务场景的特 征数据; 将所述样本数据输入到所述初始网络模型中, 得到所述初始网络模型的实际输出数 据; 根据所述样本数据的实 际输出数据和期望输出数据, 调整所述初始网络模型的参数, 以得到数据扩展模型。 9.一种数据扩展装置, 其特 征在于, 包括: 数据集获取模块, 用于获取目标业务场景中的参考数据集, 以及与所述目标业务场景 关联的关联业 务场景的待扩展数据集; 特征数据确定模块, 用于确定所述参考数据集中各数据的参考特征数据, 并确定所述 参考特征数据中的目标 特征数据; 目标扩展数据获取模块, 用以于所述待扩展数据集中选取具有所述目标特征数据的第 一待扩展数据, 并将所述第一待扩展数据作为所述目标业 务场景的目标扩展数据。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处 理器执行时实现权利要求1 ‑8中任一项所述的数据扩展方法。权 利 要 求 书 2/2 页 3 CN 115017145 A 3

PDF文档 专利 数据扩展方法、装置及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据扩展方法、装置及存储介质 第 1 页 专利 数据扩展方法、装置及存储介质 第 2 页 专利 数据扩展方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:49:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。