全网唯一标准王
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210983776.4 (22)申请日 2022.08.17 (65)同一申请的已公布的文献号 申请公布号 CN 115051880 A (43)申请公布日 2022.09.13 (73)专利权人 华泰人寿保险股份有限公司 地址 100000 北京市西城区金融大街3 5号 国际企业大厦B座10层 (72)发明人 徐天甫 颜肇珩 程亚男 李英  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 钟扬飞 (51)Int.Cl. H04L 9/40(2022.01) H04L 43/026(2022.01)G06K 9/62(2022.01) (56)对比文件 CN 114584377 A,2022.06.03 审查员 毕雅超 (54)发明名称 对流量或日志数据进行分类的方法、 系统、 装置及介质 (57)摘要 本申请实施例属于网络安全 领域, 提供了对 流量或日志数据进行分类的方法、 系统、 装置及 介质, 该方法包括: 获取至少一条待检测数据, 其 中, 所述至少一条待检测数据为流量数据或日志 数据; 根据预设的多个特征和至少一条待检测数 据, 获得多组目标特征, 其中, 一条待检测数据对 应一组目标特征; 将多组目标特征输入到目标检 测模型中, 并且通过目标检测模 型对多组目标特 征进行分类, 获得针对至少一条待检测数据的分 类结果。 通过本申请的一些实施例能够对访问流 量进行监控, 捕获访问流量中的异常流量, 从而 解决系统的安全性问题。 权利要求书3页 说明书10页 附图5页 CN 115051880 B 2022.11.11 CN 115051880 B 1.一种对流量或日志数据进行分类的方法, 其特征在于, 应用于安全设备, 所述方法包 括: 获取至少一条待检测数据, 其中, 所述至少一条待检测数据为 流量数据或日志数据; 根据预设的多个特征和所述至少一条待检测数据, 获得多组目标特征, 其中, 一条待检 测数据对应一组目标 特征; 将所述多组目标特征输入到目标检测模型中, 并且通过所述目标检测模型对所述多组 目标特征进行分类, 获得针对所述至少一条待检测数据的分类结果; 在所述将所述多组目标 特征输入到目标检测模型中之前, 所述方法还 包括: 获取历史数据, 其中, 所述历史数据无标签; 将所述历史数据输入到目标排序模型中, 并且通过所述目标排序模型对所述历史数据进行排序, 获得排序结果, 其中, 所述目标排序 模型被配置为获得所述历史数据对应的历史特征, 并且根据所述历史特征对所述历史数据 属于异常数据的概 率进行排序; 根据所述 排序结果得到样本数据; 获取所述样本数据, 其中, 所述样本数据包括被标注为正常的第一样本数据以及被标 注为异常的第二样本数据; 将所述样本数据对应的样本特征输入到待训练的检测模型中进 行训练, 获得 所述目标检测模型; 其中, 所述 排序结果是通过如下 方法获得的: 对所述历史数据进行结构化, 并且将结构化后的历史数据与预设的多个特征进行比 对, 获得历史特 征; 将所述历史特 征分别输入到多个学习器中进行排序, 相对应的获得多个排序结果; 采取加权投票机制, 将所述多个排序结果按照预设权 重进行计算获得 所述排序结果; 其中, 所述预设的多个特征包括: 目标数据的数据类型以及长度或长度 范围、 是否包含 固定字符串、 是否包含固定的目录结构、 是否包含固定ip、 是否包含固定网址、 是否包含时 间、 是否包含日期、 是否包含特殊编 码、 是否包含 特定数字、 是否包含 特定字符串、 是否包含 结构化查询语言SQL语句、 提取不同级别下的索引的数量及种类、 索引是否是特定字符串以 及提取目标 数据为目录结构的情况 下的参数 特征; 其中, 所述 一组目标 特征与所述预设的多个特 征的个数相同; 其中, 若所述一条待检测数据中包含所述结构化查询语言SQL语句, 则对于SQL语句预 期的执行结果行为进行提取, 以及识别异常查询的SQ L语句。 2.根据权利要求1所述的方法, 其特征在于, 所述根据预设的多个特征和所述至少一条 待检测数据, 获得多组目标 特征, 包括: 将所述至少一条待检测数据进行结构化, 获得至少一组结构化数据, 其中, 一条待检测 数据对应一组结构化数据, 所述一组结构化数据中的每个结构化数据包括索引和目标数 据; 基于所述预设的多个特征和所述至少一组结构化数据, 获得所述多组目标特征, 其中, 所述每个结构化数据对应一组目标 特征。 3.根据权利要求2所述的方法, 其特征在于, 所述一组结构化数据中包括第 一结构化数 据, 其中, 所述第一结构化数据属于所述 一组结构化数据中的任意 一条; 所述基于所述预设的多个特征和所述至少一组结构化数据, 获得所述多组目标特征, 包括:权 利 要 求 书 1/3 页 2 CN 115051880 B 2将所述第一结构化数据与 所述预设的多个特征中的各特征进行比对, 获得与 所述第一 结构化数据对应的一组目标 特征。 4.根据权利要求1所述的方法, 其特征在于, 在所述将所述样本数据对应的样本特征输 入到待训练的检测模型中进行训练之后, 所述方法还 包括: 获得目标规则树, 其中, 所述目标规则树用于表征对所述至少一条待检测数据进行分 类的规则。 5.一种对流 量或日志数据进行分类的系统, 其特 征在于, 所述系统包括: 安全设备, 被配置为获取至少一条待检测数据, 并且根据所述至少一条待检测数据执 行如权利要求1 ‑4任一项所述的方法, 获得流 量分类结果; 控制设备, 被配置为根据所述流量分类结果对所述至少一条待检测数据进行放行或拦 截。 6.一种对流量或日志数据进行分类的装置, 其特征在于, 应用于安全设备, 所述装置包 括: 数据获取模块, 被配置为获取至少一条待检测数据, 其中, 所述至少一条待检测数据为 流量数据或日志数据; 特征获取模块, 被配置为根据预设的多个特征和所述至少一条待检测数据, 获得多组 目标特征, 其中, 一条待检测数据对应一组目标 特征; 分类模块, 被配置为将所述多组目标特征输入到目标检测模型中, 并且通过所述目标 检测模型对所述多组目标 特征进行分类, 获得针对所述至少一条待检测数据的分类结果; 所述分类模块还被 配置为: 获取历史数据, 其中, 所述历史数据无标签; 将所述历史数据输入到目标排序模型中, 并且通过所述目标排序模型对所述历史数据进行排序, 获得排序结果, 其中, 所述目标排序 模型被配置为获得所述历史数据对应的历史特征, 并且根据所述历史特征对所述历史数据 属于异常数据的概 率进行排序; 根据所述 排序结果得到样本数据; 获取所述样本数据, 其中, 所述样本数据包括被标注为正常的第一样本数据以及被标 注为异常的第二样本数据; 将所述样本数据对应的样本特征输入到待训练的检测模型中进 行训练, 获得 所述目标检测模型; 其中, 所述 排序结果是通过如下 方法获得的: 对所述历史数据进行结构化, 并且将结构化后的历史数据与预设的多个特征进行比 对, 获得历史特 征; 将所述历史特 征分别输入到多个学习器中进行排序, 相对应的获得多个排序结果; 采取加权投票机制, 将所述多个排序结果按照预设权 重进行计算获得 所述排序结果; 其中, 所述预设的多个特征包括: 目标数据的数据类型以及长度或长度 范围、 是否包含 固定字符串、 是否包含固定的目录结构、 是否包含固定ip、 是否包含固定网址、 是否包含时 间、 是否包含日期、 是否包含特殊编 码、 是否包含 特定数字、 是否包含 特定字符串、 是否包含 结构化查询语言SQL语句、 提取不同级别下的索引的数量及种类、 索引是否是特定字符串以 及提取目标 数据为目录结构的情况 下的参数 特征; 其中, 所述 一组目标 特征与所述预设的多个特 征的个数相同; 其中, 所述特征获取模块还被配置为: 若所述一条待检测数据中包含所述结构化查询权 利 要 求 书 2/3 页 3 CN 115051880 B 3

PDF文档 专利 对流量或日志数据进行分类的方法、系统、装置及介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对流量或日志数据进行分类的方法、系统、装置及介质 第 1 页 专利 对流量或日志数据进行分类的方法、系统、装置及介质 第 2 页 专利 对流量或日志数据进行分类的方法、系统、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:08上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。