全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211047111.9 (22)申请日 2022.08.30 (71)申请人 联洋国融 (上海) 科技有限公司 地址 200030 上海市徐汇区枫林路420号2 层A区 (72)发明人 邓超 胡栩喆  (74)专利代理 机构 北京华清迪源知识产权代理 有限公司 1 1577 专利代理师 丁彦峰 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 40/02(2012.01) G06F 40/289(2020.01) (54)发明名称 一种信贷催收短信判别方法、 系统、 设备及 存储介质 (57)摘要 本发明实施例公开了一种信贷催收短信判 别方法、 系统、 设备及存储介质, 通过对短信文本 样本标注建立样本库, 然后对样 本进行分词和向 量化处理, 得到文本词向量, 将各个文本词向量 与对应标注对齐后作为训练数据训练分类模型, 最后利用分类模型对待判别短信文本进行预测 判别。 本发 明实施例根据机器学习分类算法训练 分类模型, 对文本进行预测, 优化了繁琐的人工 分析和模板构建的过程, 避免模板频繁修改, 有 效提高了对信贷催收短信判别的文本匹配效率, 增强了分类的准确度。 权利要求书3页 说明书12页 附图9页 CN 115358340 A 2022.11.18 CN 115358340 A 1.一种信贷催收短信判别方法, 其特 征在于, 所述方法包括: 对第一短信文本样本进行 标注, 得到第二短信文本样本, 建立样本库; 对所述第二短信文本样本进行分词处 理, 得到第三短信文本样本; 对所述第三短信文本样本进行向量 化, 得到相对应的文本词向量; 将各个文本词向量与对应标注对齐后作为训练数据, 得到分类模型; 对待判别短信文本进行 数据处理, 并输入至所述分类模型进行 预测, 得到判别结果。 2.如权利要求1所述的一种信贷催收短信判别方法, 其特征在于, 对所述第 二短信文本 样本进行分词处 理, 得到第三短信文本样本, 包括: 利用停用词库和自定义词库, 对所述第二短信文本样本进行第一分词处理, 得到第一 分词结果, 所述第一分词结果包括至少一个第一短语, 第一短语之间由空格隔开; 计算出所述第一分词结果中每 个第一短语的第一TF ‑IDF值; 判断所述第一TF ‑IDF值是否超过第一预设 分词阈值; 若第一TF ‑IDF值超过第一预设分词阈值, 则将所述第一短语作为停用词加入停用词 库; 根据所述第一分词结果判断是否存在自定义词未被区分; 若所述第一分词结果中存在所述自定义词未被区分, 则向自定义词库中添加该自定义 词并提高该自定义词的分词权 重; 利用更新后的停用词库和自定义词库, 对所述第二短信文本样本进行第二分词处理, 得到第三短信文本样本 。 3.如权利要求2所述的一种信贷催收短信判别方法, 其特征在于, 对所述第 三短信文本 样本进行向量 化, 得到相对应的文本词向量, 包括: 利用所述第三短信文本样本, 得到第一矩阵; 根据所述第 三短信文本样本的分词总数和词向量维度, 构建第 一中心词矩阵和第 一上 下文矩阵; 利用所述第 一矩阵与 所述第一中心词矩阵进行第 一矩阵乘法运算, 得到第 二中心词矩 阵; 利用所述第 二中心词矩阵与 所述第一上下文矩阵进行第 二矩阵乘法运算, 得到第 一内 积矩阵; 对所述第一内积矩阵进行归一化处理, 并利用归一化处理结果对所述第 一中心词矩阵 和所述第一上 下文矩阵进行调整, 得到第一向量 化模型; 将所述第三短信文本样本输入至所述第 一向量化模型中, 得到各个文本第 一分词词向 量; 对各个文本第一分词 词向量进行求和, 并利用求和结果进行平均, 得到文本词向量。 4.如权利要求3所述的一种信贷催收短信判别方法, 其特征在于, 对待判别短信文本进 行数据处理, 并输入至所述分类模型进行 预测, 得到判别结果, 包括: 对所述待判别短信文本进行分词处 理, 得到待判别分词结果; 对所述待判别分词结果进行向量 化, 得到待判别文本向量; 将所述待判别文本向量输入至所述分类模型中, 预测所述待判别短信文本是否为信贷 催收类短信文本;权 利 要 求 书 1/3 页 2 CN 115358340 A 2若所述待判别短信文本为信贷催收类短信文本, 则所述判别结果 为1; 若所述待判别短信文本为非信贷催收类短信文本, 则所述判别结果 为0。 5.如权利要求4所述的一种信贷催收短信判别方法, 其特征在于, 对所述待判别短信文 本进行分词处 理, 得到待判别分词结果, 包括: 利用停用词库和自定义词库, 对所述待判别短信文本进行第三分词处理, 得到第三分 词结果, 所述第三分词结果包括至少一个第二短语, 第二短语之间由空格隔开; 计算出所述第三分词结果中每 个第二短语的第二TF ‑IDF值; 判断第二TF ‑IDF值是否超过第二预设 分词阈值; 若第二TF ‑IDF值超过第二预设分词阈值, 则将所述第二短语作为停用词加入停用词 库; 根据所述第三分词结果判断是否存在自定义词未被区分; 若第二TF ‑IDF值未超过第二预设分词阈值, 则直接根据所述第三分词结果判断是否存 在自定义词未被区分; 若所述第三分词结果中存在所述自定义词未被区分, 则向自定义词库中添加该自定义 词并提高该自定义词的分词权重; 利用更新后的停用 词库和自定义词库, 对所述待判别 短 信文本进行第四分词处 理, 得到待判别分词结果; 若所述第三分词结果中不存在所述自定义词未被区分, 则直接利用第三分词结果, 得 到待判别分词结果。 6.如权利要求5所述的一种信贷催收短信判别方法, 其特征在于, 对所述待判别分词结 果进行向量 化, 得到待判别文本向量, 包括: 利用所述待判别分词结果, 得到第二矩阵; 根据所述待判别分词结果的分词总数和词向量维度, 构建第 三中心词矩阵和第 二上下 文矩阵; 利用所述第 二矩阵与 所述第三中心词矩阵进行第 三矩阵乘法运算, 得到第四中心词矩 阵; 利用所述第四中心词矩阵与 所述第二上下文矩阵进行第四矩阵乘法运算, 得到第 二内 积矩阵; 对所述第二内积矩阵进行归一化处理, 并利用归一化处理结果对所述第 三中心词矩阵 和所述第二上 下文矩阵进行调整, 得到第二向量 化模型; 将所述待判别分词结果输入至所述第二向量化模型中, 得到各个文本第二分词词向 量; 对各个文本第二分词词向量进行求和, 并利用求和结果进行平均, 得到待判别文本向 量。 7.如权利要求1至6中任一项所述的一种信贷催收短信判别方法, 其特征在于, 在对第 一短信文本样本进行 标注得到第二短信文本样本之前, 所述方法还 包括: 通过正则匹配, 从所有短信文本中筛 选出金融类短信文本; 根据文本相似度对所述金融类短信文本进行去重处 理, 得到所述第一短信文本样本 。 8.一种信贷催收短信判别系统, 其特 征在于, 所述系统包括: 匹配模块, 用于通过正则匹配, 从所有短信文本中筛 选出金融类短信文本; 去重模块, 用于根据文本相似度对所述金融类短信文本进行去重处理, 得到第一短信权 利 要 求 书 2/3 页 3 CN 115358340 A 3

PDF文档 专利 一种信贷催收短信判别方法、系统、设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种信贷催收短信判别方法、系统、设备及存储介质 第 1 页 专利 一种信贷催收短信判别方法、系统、设备及存储介质 第 2 页 专利 一种信贷催收短信判别方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。