全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211054171.3 (22)申请日 2022.08.31 (71)申请人 广东工业大 学 地址 510000 广东省广州市东 风东路729号 (72)发明人 邵长城 张成科  (74)专利代理 机构 长沙轩荣专利代理有限公司 43235 专利代理师 张慧敏 (51)Int.Cl. G06Q 40/02(2012.01) G06F 16/2455(2019.01) (54)发明名称 一种基于实时流数据的在线金融风控 模型 (57)摘要 本发明涉及金融风控技术领域, 提出了一种 基于实时流数据的在线金融风控模 型方法, 步骤 包括: 步骤1): 采集单元获取目标数据集, 并对实 时数据和离线数据进行整合; 步骤2): 对数据中 的缺失值和异常值进行处理, 提高模 型的泛化能 力; 步骤3): 结合金融风控的业务背景, 对原始数 据进行工程性处理, 挖掘数据中的潜在价值; 步 骤4): 通过stacking融合方式对几个金融风控机 器学习算法模 型进行融合, 根据实时采集的数据 集实时更新风险预测模型。 在本发明中, 解决了 现有金融模型不能及时识别风险并进行预警或 者风控的问题, 提出一种基于实时流数据的在线 金融风控模型, 运用实时数据进行模型训练, 显 著提升了金融风控预测的实时性与准确性。 权利要求书2页 说明书5页 附图2页 CN 115393060 A 2022.11.25 CN 115393060 A 1.一种基于实时流数据的在线金融风控 模型, 其特 征在于,包括以下模块: 数据采集模块; 数据预处 理模块; 特征工程模块; 风控评估 模块。 2.如权利要求1所述的一种基于实时流数据的在线金融风控模型, 其特征在于, 所述数 据采集模块具体包括: 步骤1.1, 通过实时数据采集单元与外部数据平台对接, 获取实时的流式交易数据, 并 将该时刻的流式数据存储到数据存储系统和高速缓存中, 高速缓存移除上一时刻的流式数 据, 并将该时刻的流式数据存储到高速缓存中, 所述外部数据 平台, 用于将银行、 ATM机、 POS 机等的实时交易数据向所述实时数据采集单 元传输; 步骤1.2, 通过批量数据采集单元与数据存储系统连接, 抽取批量离线数据; 所述离线 数据为过往的用户交易记录; 步骤1.3, 数据整合单元对数据进行清洗与集成, 对实时数据与离线数据的数据格 式进 行格式化,清洗冗余数据, 并对实时数据与离线 数据进行整合从而获得集成数据, 将集 成数 据发送至数据预处 理模块。 3.如权利要求1所述的一种基于实时流数据的在线金融风控模型, 其特征在于, 所述数 据预处理模块具体包括: 步骤2.1, 缺失值处理单元, 根据初始设定的阈值, 对有缺失字段的数据分为两大部分, 直接删除缺 失字段数目小于阈值且重要字段没有缺失的数据项, 对缺失字段数目较多或是 缺失重要字段的数据项 进行中位数填充; 上述重要字段为身份 证号、 金额、 贷款类型、 时间等对 模型影响比重较大 大的字段; 步骤2.2, 异常值处 理单元, 采用标准差判断法, 计算出当前字段的标准差为: 其中N表示数据项的总数, μ表示该字段在全部数据项中的平均值; 若该字段的数值与平均值μ的偏差超过标准差的值的三倍, 则认为该字段的数值超出 了样本数据的正常范围, 将该字段的数据标记为异常值进行后续处 理; 步骤2.3, 样本均衡单元, 利用SMOTE算法合成新的少 数类样本, 先利用K ‑近邻算法, 选 择离样本点xi最近的k个同类样本点, 并从中随机挑选M个样本点, 对于每一个随机选中的 样本点, 构造新的样本点xnew, 公式为: xnew=xi+rand(0,1)*(xj‑xi),j=1,2, …,M 其中xi表示少数类别中的一个样本点, xj表示K‑近邻算法中随机挑选的样本点; rand (0,1)表示 生成0‑1的随机数。 4.如权利要求1所述的一种基于实时流数据的在线金融风控模型, 其特征在于, 所述特 征工程模块具体包括: 步骤3.1, 类别特征编码单元, 将数据集中涉及到的类别型特征把其对应的类别特征转 换为模型 可以识别的类型, 类别型 特征如性别、 学历、 民族和贷款类型等; 步骤3.2, 特征组合单元, 通过把用户的多个字段进行融合生成新的字段, 使得后续模权 利 要 求 书 1/2 页 2 CN 115393060 A 2型学习到更深层次的信息, 使用因子分解机, 将稀疏数据Embedding向低维度表达, 形成一 个稠密的特征向量, 对于每个组合特征wixi, 训练出两组一维向量的内积<vi,vj>来替代权 重值: 其中, w0表示常数项, 表示一阶线性模型, χiχj表 示二阶特征交叉模型。 5.如权利要求1所述的一种基于实时流数据的在线金融风控模型, 其特征在于, 所述风 控评估模块具体包括: 步骤4.1, 定义第 一层基础学习器集合为M={f1,f2,…,fn}, 其中, fi为各个优选的金融 风控模型; 步骤4.2, 划分数据集, 采用随机抽样将数据集D平均划分为n份, n的大小与基础学习器 的数量对应D={D1,D2,…,Dn}; 步骤4.3, 训练第一层基础学习器, 单个基础学习器f1对应的测试集为D1, 训练集D为中 除Di外的数据, 基于训练集的数据进行训练之后对测试集进行预测, 结果记为Yi, 所以基础 学习器的预测结果集合作为框架第二层模型的输入Dnew={Y1,Y2,Y3,…,Yn}, 该新数据集与 原始数据集D的行 数相同; 步骤4.4, 选择第二层基础学习器并输出结果, 从M中选择基础学习器, 以Dnew为输入数 据, 并以AUC为衡量指标选择最优的模型作为第二层的学习器, 输出 结果为Ys=f(Dnew)。权 利 要 求 书 2/2 页 3 CN 115393060 A 3

PDF文档 专利 一种基于实时流数据的在线金融风控模型

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于实时流数据的在线金融风控模型 第 1 页 专利 一种基于实时流数据的在线金融风控模型 第 2 页 专利 一种基于实时流数据的在线金融风控模型 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:15:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。