全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210873058.1 (22)申请日 2022.07.21 (71)申请人 北京顶象技 术有限公司 地址 100000 北京市海淀区上地信息路26 号3层0308/0310室 (72)发明人 陈德蕾 陈龙 陈树华  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 张萌 (51)Int.Cl. G06K 9/62(2022.01) G06Q 40/02(2012.01) G06Q 40/08(2012.01) G06F 16/901(2019.01) (54)发明名称 分类预测方法、 装置和电子设备 (57)摘要 本发明提供了一种分类预测方法、 装置和电 子设备, 在得到二分类模型的第一预测结果后, 可基于初始样本集合中样本间的属性关联关系, 构建包含多个节点的初始关联关系网; 之后基于 第一预测结果为初始关联关系网中每个节点所 对应的样本设置初始类别标签以得到第一关联 关系网, 并对第一关联关系网进行社区划分; 根 据社区划分结果, 以社区为单位对同一社区内节 点所对应样 本的初始类别标签进行更新, 得到第 二预测结果。 采用本发明可以提高二分类模型预 测结果的可靠性, 从而降低相关业务部门产生损 失的风险。 权利要求书3页 说明书15页 附图4页 CN 115099366 A 2022.09.23 CN 115099366 A 1.一种分类预测方法, 其特 征在于, 所述方法包括: 利用目标场景对应的二分类模型对所述目标场景的初始样本集合进行预测, 得到第 一 预测结果; 其中, 所述目标场景为预先确定的待分类预测的场景, 所述第一预测结果包括所 述初始样本集 合中每个样本的分类概 率和/或分类分数; 基于所述初始样本集合中样本间的属性关联关系, 构建包含多个节点的初始关联关系 网; 其中, 所述初始关联关系网中的每个节点与所述初始样本集合中的每个样本一一对应; 所述初始关联关系网中用节点间的连线表征所述初始样本集合中样本间的关联关系, 且每 条连线均设置有表征样本间关联性大小的权 重; 基于所述第一预测结果为所述初始关联关系网中每个节点所对应的样本设置初始类 别标签, 得到第一关联关系网; 基于所述第 一预测结果和所述第 一关联关系网中每条连线的权重, 对所述第 一关联关 系网进行社区划分, 得到第一社区集合; 其中, 所述第一社区集合中的每个社区均包含至少 两个节点; 对于所述第一社区集合中的每个社区, 均根据该社区包含的所有节点的第一预测结 果, 对该社区中的节点所对应样本的初始类别标签进行 更新, 得到第二预测结果。 2.根据权利要求1所述的方法, 其特征在于, 基于所述第一预测结果, 为所述初始关联 关系网中每 个节点所对应的样本设置初始类别标签, 得到第一关联关系网的步骤, 包括: 基于所述第一预测结果, 确定所述初始样本集 合中每个样本的分类分数; 基于所述初始样本集合中每个样本的分类分数, 确定所述初始关联关系网中的种子节 点; 其中, 所述种子节点对应样本的分类分数小于第一分数阈值; 将所述种子节点所对应样本的初始类别标签设置为表征正样本的第 一类标签, 将所述 初始关联关系网中所述种子节点以外的其他节点所对应样本的初始类别标签设置为表征 负样本的第二类标签, 得到所述第一关联关系网。 3.根据权利要求2所述的方法, 其特征在于, 基于所述第一预测结果, 确定所述初始样 本集合中每个样本的分类分数的步骤, 包括: 从所述第一预测结果中直接获取所述初始样本集合中每个样本的分类概率; 基于所述 初始样本集 合中每个样本的分类概 率, 确定所述初始样本集 合中每个样本的分类分数; 或者, 从所述第一预测结果中直接获取 所述初始样本集 合中每个样本的分类分数。 4.根据权利要求3所述的方法, 其特征在于, 基于所述初始样本集合中每个样本的分类 概率, 确定所述初始样本集 合中每个样本的分类分数的步骤, 包括: 基于所述第 一预测结果中所述初始样本集合中每个样本的分类概率, 按照以下公式计 算所述初始样本集 合中每个样本的分类分数: 其中, basepo int为基准分, Pdo 为步长, prob为样本的分类概 率。 5.根据权利要求1所述的方法, 其特征在于, 基于所述初始样本集合中样本间的属性关 联关系, 构建包 含多个节点的初始关联关系网的步骤, 包括: 若所述初始样本集合中的两个样本之间存在属性关联关系, 则在该两个样本所对应的 节点间建立 一条连线;权 利 要 求 书 1/3 页 2 CN 115099366 A 2根据样本间的关联次数和/或关系紧密程度, 为每条 连线设置相应的权 重。 6.根据权利要求2所述的方法, 其特征在于, 基于所述第 一预测结果和所述第 一关联关 系网中每条连线的权重, 对所述第一关联关系网进 行社区划分, 得到第一社区集合的步骤, 包括: 基于所述初始样本集合中每个样本的分类分数, 对所述第一关联关系 网进行删减, 得 到第二关联关系网; 其中, 所述第二关联关系网中每个节点所对应样本的分类分数均小于 或等于第二分数阈值; 所述第二分数阈值大于所述第一分数阈值; 根据所述第 二关联关系网中每条连线的权重, 采用社区发现算法对所述第 二关联关系 网进行社区划分, 得到初始社区集 合; 将所述初始社区集 合中仅包 含一个节点的社区剔除, 得到所述第一社区集 合。 7.根据权利要求2所述的方法, 其特征在于, 对于所述第一社区集合中的每个社区, 均 根据该社区包含的所有节点的第一预测结果, 对该社区中的节点所对应样本的初始类别标 签进行更新, 得到第二预测结果的步骤, 包括: 对于所述第 一社区集合中的每个社区, 均根据该社区中与带第 一类标签的样本对应的 节点的数量和该社区包含的所有节点对应样本的分类分数, 对该社区中的节点所对应样本 的初始类别标签进行 更新, 得到所述第二预测结果。 8.根据权利要求7所述的方法, 其特征在于, 对于所述第一社区集合中的每个社区, 均 根据该社区中与带第一类标签的样本对应的节点的数量和该社区包含的所有节点对应样 本的分类分数, 对该社区中的节点所对应样本的初始类别标签进行更新, 得到所述第二预 测结果的步骤, 包括: 对于所述第 一社区集合中的每个社区, 均根据该社区中与带第 一类标签的样本对应的 节点的数量, 计算该 社区中与带第一类标签的样本对应的节点的数量百分比; 对于所述第 一社区集合中的每个社区, 均根据该社区包含的所有节点对应样本的分类 分数, 计算该 社区中节点所对应样本的平均分类分数; 对于所述第 一社区集合中的每个社区, 若该社区中与 带第一类标签的样本对应的节点 的数量百分比大于或等于预设百分比阈值, 且 该社区中节点所对应样本的平均分类分数小 于第三分数阈值, 则将该社区中所有节点对应样本的初始类别标签均替换成第一类标签, 得到该社区中所有节点对应样本的最终类别标签; 其中, 所述第三分数阈值大于或等于所 述第一分数阈值; 对于所述第 一社区集合中的每个社区, 若该社区中与 带第一类标签的样本对应的节点 的数量百分比小于预设百分比阈值, 或者该社区中节点所对应样本的平均分类分数大于或 等于第三分数阈值, 则维持该社区中所有节点对应样本的初始类别标签不变, 得到该社区 中所有节点对应样本的最终类别标签; 将每一个带最终类别标签的样本作为所述第二预测结果。 9.根据权利要求1所述的方法, 其特征在于, 所述目标场景为信用评判场景或保险代 理 人信誉评判场景。 10.一种分类预测装置, 其特 征在于, 所述装置包括: 预测模块, 用于利用目标场景对应的二分类模型对所述目标场景的初始样本集合进行 预测, 得到第一预测结果; 其中, 所述目标场景为预先确定的待分类预测的场景, 所述第一权 利 要 求 书 2/3 页 3 CN 115099366 A 3

PDF文档 专利 分类预测方法、装置和电子设备

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 分类预测方法、装置和电子设备 第 1 页 专利 分类预测方法、装置和电子设备 第 2 页 专利 分类预测方法、装置和电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:16:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。