全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210069597.X (22)申请日 2022.01.21 (65)同一申请的已公布的文献号 申请公布号 CN 114095282 A (43)申请公布日 2022.02.25 (73)专利权人 杭银消费金融股份有限公司 地址 310005 浙江省杭州市下城区庆春路 38号1层101室、 8层801、 802、 803、 804 室、 11层1101、 1102室 (72)发明人 周维浩  (74)专利代理 机构 浙江维创盈嘉专利代理有限 公司 33477 代理人 龚洋洋 (51)Int.Cl. H04L 9/40(2022.01)G06F 16/35(2019.01) G06F 40/30(2020.01) (56)对比文件 WO 2021169208 A1,2021.09.02 CN 109146 610 A,2019.01.04 CN 113139368 A,2021.07.20 CN 109543 516 A,2019.0 3.29 CN 109302338 A,2019.02.01 CN 112435137 A,2021.0 3.02 CN 111311136 A,2020.0 6.19 CN 109242673 A,2019.01.18 WO 2021174717 A1,2021.09.10 审查员 段燕辉 (54)发明名称 一种基于短文本特征提取的风控处理方法 及设备 (57)摘要 本申请提供了一种基于短文本特征提取的 风控处理方法及设备, 属于信息安全防护技术领 域。 该方法通过获取风控主体的待处理短文本, 将待处理短文本输入短文本识别模 型, 确定待处 理短文本的第一意图。 确定风控主体的若干待测 信息。 根据用户画像模型 以及各待测信息, 生成 风控主体所对应的用户画像数据。 根据用户画像 数据、 各待测信息以及短文本识别模型, 确定风 控主体的若干第二意图。 将第一意图与各第二意 图进行匹配, 以确定第一意图是否存在匹配度大 于第一预设阈值的第二意图。 若存在, 根据各待 测信息中的短文本, 生成待处理短文本相应的风 控聊天短文本。 将风控聊天短文本与待处理短文 本进行比对, 以根据比对结果, 确定风控主体是 否为风险用户。 权利要求书3页 说明书13页 附图7页 CN 114095282 B 2022.04.15 CN 114095282 B 1.一种基于短文本特 征提取的风控处 理方法, 其特 征在于, 所述方法包括: 获取风控主体的待处 理短文本; 将所述待处理短文本输入预设的短文本识别模型, 确定所述待处理短文本的第一意 图; 确定所述风控主体的若干待测信息; 其中, 所述待测信息来自所述风控主体发表的动 态、 历史聊天记录; 根据预设的用户画像模型以及各所述待测信 息, 生成所述风控主体所对应的用户画像 数据; 根据所述用户画像数据、 各所述待测信息以及所述短文本识别模型, 确定所述风控主 体的若干第二 意图; 将所述第一意图与 各所述第 二意图进行匹配, 以确定所述第 一意图是否存在匹配度 大 于第一预设阈值的所述第二 意图; 若存在, 根据各所述待测信息中的短文本, 生成所述待处理短文本相应的风控聊天短 文本; 其中, 所述 风控聊天短文本用于表达所述第一 意图; 将所述风控聊天短文本与 所述待处理短文本进行比对, 以根据 所述风控聊天短文本与 所述待处 理短文本的比对结果, 确定所述 风控主体是否为 风险用户。 2.根据权利要求1所述方法, 其特征在于, 确定所述风控主体的若干第二意图, 具体包 括: 将各所述待测信 息进行分词处理, 并确定分词处理后的各所述待测信 息中的第一关键 词; 确定各所述待测信息中所述第一关键词相应的共现邻接词; 其中, 所述共现邻接词为 各所述待测信息中所述第一关键词以外的关键词; 根据各所述第 一关键词及其所述共现邻 接词, 生成若干关键词三元组; 其中, 所述关键 词三元组由一个所述第一关键词及其相应的两个所述共现邻接词, 在各所述待测信息中的 两两之间的共现次数组成; 根据各所述关键词三元组, 生成若干主题词语集; 其中, 所述主题词语集包括所述第一 关键词相应的各 所述关键词三元组中, 两个所述共现邻接词组成的词对; 基于所述待测信 息中的词语在所述主题词语集的词对共现次数, 确定所述待测信 息的 主题分布概 率; 根据所述主题分布概率, 确定所述待测信 息的主题标签, 以通过各所述主题标签, 生成 若干第一待定意图, 以根据各所述第一待定意图及所述用户画像数据, 确定若干所述第二 意图。 3.根据权利要求1所述方法, 其特征在于, 根据所述用户画像数据、 各所述待测信息以 及所述短文本识别模型, 确定所述 风控主体的若干第二 意图, 具体包括: 通过所述短文本识别模型, 确定所述用户画像数据相应的若干第二待定意图; 其中, 所 述短文本识别模型为预 先训练好的用于语义 意图识别的神经网络模型; 基于预设意图类型库以及所述第二待定意图, 确定所述风控主体的若干所述第二意 图。 4.根据权利要求1所述方法, 其特征在于, 所述方法应用于预先搭建的区块链平台, 所权 利 要 求 书 1/3 页 2 CN 114095282 B 2述风控主体对应于所述区块链 平台的任一节点; 确定所述 风控主体的若干待测信息, 具体包括: 确定所述 风控主体在所述区块链 平台的主体账户; 通过所述区块链平台中的第 三方节点, 获取所述主体账户的若干待测信息; 其中, 所述 待测信息 至少包括以下一项或多 项: 发表文章摘要、 网站评论、 聊天记录; 确定所述 风控主体是否为 风险用户之后, 所述方法还 包括: 将所述风控聊天短文本与 所述待处理短文本比对结果, 发送至所述区块链平台的第 三 方节点; 接收所述第 三方节点基于所述比对结果生成的反馈信息; 其中, 所述反馈信息包括: 短 信、 语音; 确定所述反馈信 息是否为可信比对结果, 以确定所述比对结果的可信度; 其中, 所述可 信度用于确定所述 风控主体是否为 风险用户。 5.根据权利要求1所述方法, 其特征在于, 根据预设的用户画像模型以及各所述待测信 息, 生成所述 风控主体所对应的用户画像数据之前, 所述方法还 包括: 通过互联网爬取技术, 获取所述待处理短文本的来源平台的若干用户特征数据; 其中, 所述用户特 征数据包括: 用户评论、 发表文章、 发表动态; 或者, 通过预设特征样本库, 确定若干用户特 征数据; 将所述用户特征数据进行短文本特征提取, 并将短文本特征提取后的所述用户特征数 据输入所述用户画像模型, 对所述用户画像模型进 行训练, 直至通过所述用户画像模型, 输 出所述用户特 征数据的用户画像数据的准确度大于预设值。 6.根据权利要求1所述方法, 其特征在于, 获取风控主体的待处理短文本之前, 所述方 法还包括: 根据所述风控主体相应的信息交互终端的选取操作, 确定所述风控主体的各聊天文 本; 基于所述信 息交互终端的记录时间戳, 将各所述聊天文本 中满足预设要求的文本进行 归类处理, 得到若干文本块; 其中, 所述预设要求为各所述聊天文本相应的所述记录时间戳 的间隔小于预设时间值; 确定各所述文本块中各词语的出现频率是否满足预设条件; 所述预设条件为所述文本 块中所述词语的所述出现频率 为所述文本块中各 所述词语的出现频率的最大值; 根据满足所述预设条件的各 所述词语, 生成待关联序列; 确定所述待关联序列中各所述词语的余弦相似度 大于第二预设阈值的各所述词语, 相 应的所述文本块, 作为待处 理文本块; 根据所述待处 理文本块相应的所述记录时间戳, 生成所述待处 理短文本 。 7.根据权利要求1所述方法, 其特征在于, 生成所述待处理短文本相应的风控聊天短文 本, 具体包括: 根据各所述待测信 息中的短文本 中, 各待测词语的分类属性及各待测标点符号的使用 频率, 对各所述待测词语及各待测标点符号分别进 行分类处理; 其中, 所述分类属性至少包 括: 词性、 词语频率、 词语情感; 分类处理后的各所述待测词语以及各所述待测标点符号, 输入预先训练的编码器, 得权 利 要 求 书 2/3 页 3 CN 114095282 B 3

PDF文档 专利 一种基于短文本特征提取的风控处理方法及设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于短文本特征提取的风控处理方法及设备 第 1 页 专利 一种基于短文本特征提取的风控处理方法及设备 第 2 页 专利 一种基于短文本特征提取的风控处理方法及设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。