全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210516467.6 (22)申请日 2022.05.12 (71)申请人 南京航空航天大 学 地址 211106 江苏省南京市江宁区将军大 道29号 (72)发明人 赵蕴龙 范其林  (51)Int.Cl. G06F 16/2455(2019.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 一种基于散度和EWMA的概念漂移检测方法 (57)摘要 本发明公开了一种基于散度和EWMA的概念 漂移检测方法, 目的是通过衡量划分的滑动窗口 之间的数据分布差异来检测数据流是否产生概 念漂移, 其步骤为: 1、 从数据流中划分滑动窗口, 并基于窗口数据来构建该窗口的数据分布函数。 2、 用Jensen ‑Shannon散度来衡量滑动窗口之间 数据分布的差异。 3、 通过EWMA(指数加权移动平 均)的假设检验方式来判断是否产生概念漂移, 并在检测到概念漂移后重新训练新的分类器来 适应后续的数据。 权利要求书2页 说明书4页 附图1页 CN 114817332 A 2022.07.29 CN 114817332 A 1.一种基于 散度和EWMA的概念漂移检测方法, 其特 征是按如下步骤进行: 步骤一: 从数据流中划分滑动窗口, 并基于窗口数据来构建该窗口 的数据分布函数。 步骤二: 用Jensen ‑Shannon散度来衡量滑动窗口之间数据分布的差异。 步骤三: 通过EWMA(指数加权移动平均)的假设检验方式来判断是否产生概念漂移, 并 在检测到概念漂移后重新训练新的分类 器来适应后续的数据。 2.根据权利要求1所述一种基于散度和EWMA的概念漂移检测方法, 其特征在于: 所诉步 骤一中, 让x1, x2,…表示数据流, 其中每个xi表示一个数据实例, w={x1, x2,…, xn}表示n个 数据的数据窗口。 我们使用双窗口机制, 其中一个窗口中的数据用于构建初始分布, 它保持 相对固定, 并在检测到概念漂移时对其进 行更新。 另一个窗口用于跟随数据流进 行滑动, 从 而表示数据流中最新的数据分布。 将滑动窗口和固定窗口内的数据通过数据频率的形式映 射到对应窗口的数据分布, 其计算式为 其中N(x|w)表示窗口w内特征向量x的 数量, n表 示窗口大小。 采用数据频率的形式, 将窗口内的属性以频率的形式计算出来, 各个 属性频率的结合构成当前窗口的数据分布函数。 在没有概念漂移时仅滑动第二个窗口, 当 检测到概念漂移后, 固定的窗口不再能代表之前 的数据分布, 故选择当前检测到概念漂移 的数据窗口作为固定窗口, 第二个窗口则按照前面的方式继续进行滑动。 3.根据权利要求1所述一种基于散度和EWMA的概念漂移检测方法, 其特征在于: 所诉步 骤二中, Jensen ‑Shannon散度是常被用于量化两个概率分布之间差异性的方法。 我们通过 步骤一获取到窗口之间的数据分布, 然后通过两个窗口之间的数据分布函数带入到 Jensen‑Shannon散度计算式中计算数据分布之间的差异 。 其中Jen sen‑Shannon散度的计算 式为 这样就得到了两个窗口之间的差 异性度量 值。 4.根据权利要求1所述一种基于散度和EWMA的概念漂移检测方法, 其特征在于: 所诉步 骤三中, 加权移动平均是对观 察值分别给予不同的权重, 按不同权重求得移动平均值, 并以 移动平均值为基础, 确定预测值的一种方法。 采用加权移动平均法, 是因为观 察期的近期观 察值对预测值有较大影响, 它更能反映近期变化的趋势。 在任意时刻当前滑动窗口的EWMA 统计量表示为zi=λji+(1‑λ )zi‑1其中zi表示未发生概念漂移的第i个滑动窗口的EWMA值; λ 表示EWMA对历史量的权重系数, 其值越接近于1, 表示对历史量 的权重越低; ji表示上一个 窗口所计算的Jensen ‑Shannon散度值。 在数据流的不断到来下就可以通过EWMA的计算值以 及均值方差等来设置一个可变的上下限阈值。 用UCL和LCL分别表示阈值的上下限, 其计算 公式为 其中μ表示未发生 概念漂移时当前窗口之前所计算的EWMA的平均值, σ 表示未发生概念漂移时当前窗口之前 所计算的EWMA的总体方差。 当i逐渐增大时, (1 ‑λ )2i很快就会收敛为零, 但当i较小时, 保留 这部分有利于提高EWMA的效果。 L作为一个控制限宽系数, 可以根据漂移时检测到的 Jensen‑Shannon散度的差异变化来动态调整, 以适应更多的漂移类型。 在计算了各个统计 量之后就可以判断数据流中当前滑动窗口内的数据是否发生了概念漂移。 例如计算当前的 EWMA统计量zi以及根据历史数据计算的上下限UCL和LCL之后, 当zi不满足在上下限阈值范 围内时就给出概念漂移信号, 这时分类模型就重新用当前窗口内的数据训练一个新的分类权 利 要 求 书 1/2 页 2 CN 114817332 A 2器, 用它来进行后续数据流的分类, 以适应新的数据 。 如果zi在阈值范围内则未发生概念漂 移, 将该滑动窗口内数据用于增量训练之前的分类器, 用以提高后续分类精度, 然后继续划 分后续的数据流窗口进行处 理。权 利 要 求 书 2/2 页 3 CN 114817332 A 3

.PDF文档 专利 一种基于散度和EWMA的概念漂移检测方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于散度和EWMA的概念漂移检测方法 第 1 页 专利 一种基于散度和EWMA的概念漂移检测方法 第 2 页 专利 一种基于散度和EWMA的概念漂移检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:10:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。