全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210864460.3 (22)申请日 2022.07.21 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 申请人 建信金融科技有限责任公司 (72)发明人 伏峰  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 王瑞云 (51)Int.Cl. G06F 16/2457(2019.01) G06F 16/2458(2019.01) G06K 9/62(2022.01) G06Q 10/04(2012.01) G06Q 40/02(2012.01) (54)发明名称 数据预测方法、 装置、 设备、 存储介质及程序 产品 (57)摘要 本发明公开了一种数据预测方法、 装置、 设 备、 存储介质及程序产品, 涉及信息处理领域。 该 方法包括: 响应于检测到对目标用户的目标数据 项的预测请求, 获取预先划分的多个用户分群; 基于目标用户对应的特征向量和各用户分群中 包含的历史用户对应的特征向量, 从各用户分群 中筛选出与目标用户匹配的目标分群; 获取目标 分群对应的目标数据项的历史计算结果, 基于历 史计算结果确定目标用户的目标数据项的预测 结果, 即本发 明实施例可以基于目标用户对应的 特征向量和各用户分群中包含的历史用户对应 的特征向量, 从各用户分群中筛选出目标分群, 基于目标分群对应的目标数据项的历史计算结 果确定目标用户的目标数据项的预测结果, 提高 数据预测的准确率。 权利要求书2页 说明书15页 附图4页 CN 115237970 A 2022.10.25 CN 115237970 A 1.一种数据预测方法, 其特 征在于, 所述方法包括: 响应于检测到对目标用户的目标数据项的预测请求, 获取预先划分的多个用户分群; 其中, 各所述用户分群中包 含至少一个历史用户的标识信息; 基于所述目标用户对应的特征向量以及各所述用户分群中包含的历史用户对应的特 征向量, 从各 所述用户分群中筛 选出与所述目标用户匹配的目标分群; 获取所述目标分群对应的所述目标数据项的历史计算结果, 基于所述历史计算结果确 定所述目标用户的所述目标 数据项的预测结果。 2.根据权利要求1所述的方法, 其特 征在于, 所述多个用户分群的划分方法包括: 获取多个历史用户分别对应的特 征向量; 基于所述多个历史用户分别对应的特征向量, 对所述多个历史用户进行聚类, 得到多 个用户分群。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标用户对应的特征向量以 及各所述用户分群中包含的历史用户对应的特征向量, 从各所述用户分群中筛选出与所述 目标用户匹配的目标分群, 包括: 获取各所述用户分群分别对应的核心点向量; 其中, 所述核心点向量是基于对应用户 分群中包 含的历史用户的特 征向量确定的; 确定所述目标用户对应的特征向量与各所述用户分群分别对应的核心点向量的相似 度; 基于各所述相似度从各 所述用户分群中筛 选出与所述目标用户匹配的目标分群。 4.根据权利要求3所述的方法, 其特征在于, 任一用户分群对应的核心点向量的确定方 法包括: 获取任一用户分群中包含的各历史用户的特征向量; 其中, 各所述特征向量中包含n个 向量元素, 其中, n 为大于1的整数; 基于获取的各所述特征向量中的第i个向量元素, 确定所述任一用户分群对应的核心 点向量中的第i个向量元 素, 其中, i在[1, n]中取值。 5.根据权利要求1所述的方法, 其特征在于, 所述目标分群对应的所述目标数据项的历 史计算结果的确定方法包括: 获取所述目标分群中包 含的各历史用户分别对应的所述目标 数据项的历史计算结果; 基于获取的各所述历史计算结果, 确定所述目标分群对应的所述目标数据项的历史计 算结果。 6.根据权利要求5所述的方法, 其特征在于, 所述目标数据项包括信用卡违约损 失值; 任一历史用户对应的所述目标 数据项的历史计算结果的确定方法包括: 确定任一历史用户的历史违约 时点, 基于所述历史违约 时点确定清收金额; 基于所述 清收金额确定催收成本; 基于所述清收金额和所述催收成本, 确定所述任一历史用户对应 的信用卡违约损失值的历史计算结果。 7.根据权利要求1 ‑6中任一项所述的方法, 其特征在于, 任一用户对应的特征向量的生 成方法包括: 获取目标分群参 考变量以及任一用户的所述目标分群参 考变量的变量 值; 将所述变量 值进行向量 化, 基于向量 化结果生成所述任一用户对应的特 征向量。权 利 要 求 书 1/2 页 2 CN 115237970 A 28.根据权利要求7所述的方法, 其特征在于, 所述目标数据项包括信用卡违约损 失值; 所述目标分群参 考变量的确定方法包括: 获取预先设置的多个候选分群参 考变量; 获取在预设观察期内开设信用卡的样本用户在预设表现期内的违约行为监测结果、 以 及各所述样本用户的各 所述候选分群参 考变量的变量 值; 基于各所述违约行为监测结果和各所述候选分群参考变量的变量值构建训练样本集, 并基于机器学习算法和所述训练样本集, 训练违约行为预测模型; 获取在训练结束后所述违约行为预测模型输出的各所述候选分群参考变量分别对应 的重要度指标值, 基于各所述重要度指标值从各所述候选 分群参考变量中选取目标分群参 考变量。 9.根据权利要求8所述的方法, 其特 征在于, 所述机器学习算法包括: XGBO OST算法。 10.根据权利要求8所述的方法, 其特征在于, 在获取到各所述样本用户的各所述候选 分群参考变量的变量值之后、 并且基于各所述违约行为监测结果和各所述候选 分群参考变 量的变量 值构建训练样本集之前, 所述方法还 包括: 对所述候选分群参考变量的变量值进行加工操作, 其中, 所述加工操作包括: 质量检查 操作、 数据质量 修复操作以及数据衍 生操作中的至少一项。 11.根据权利要求8所述的方法, 其特征在于, 所述候选分群参考变量包括: 信用卡申请 类信息变量、 信用卡用户还款信息变量、 信用卡渠道类信息变量、 信用卡账户基本信息变 量、 信用卡审批类信息变量、 信用卡用户基本信息变量、 信用卡用户征信信息变量、 信用卡 担保信息变量、 合同信息变量、 信用卡风险分类变量、 信用卡产品类信息变量、 逾期用户信 息变量、 以及信用卡用户余 额信息变量中的至少一项。 12.一种数据预测装置, 其特 征在于, 包括: 预测请求响应模块, 用于响应于检测到对目标用户的目标数据项的预测请求, 获取预 先划分的多个用户分群; 其中, 各 所述用户分群中包 含至少一个历史用户的标识信息; 目标分群筛选模块, 用于基于所述目标用户对应的特征向量以及各所述用户分群 中包 含的历史用户对应的特征向量, 从各所述用户分群中筛选出与所述目标用户匹配的目标分 群; 预测结果确定模块, 用于获取所述目标分群对应的所述目标数据项的历史计算结果, 基于所述历史计算结果确定所述目标用户的所述目标 数据项的预测结果。 13.一种电子设备, 其特 征在于, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行权利要求 1‑11中任一项 所述的 数据预测方法。 14.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1 ‑11中任一项所述的数据预测方法。 15.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序在被处理器 执行时实现如权利要求1 ‑11中任一项所述的数据预测方法。权 利 要 求 书 2/2 页 3 CN 115237970 A 3

PDF文档 专利 数据预测方法、装置、设备、存储介质及程序产品

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据预测方法、装置、设备、存储介质及程序产品 第 1 页 专利 数据预测方法、装置、设备、存储介质及程序产品 第 2 页 专利 数据预测方法、装置、设备、存储介质及程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:16:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。