(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210108101.5
(22)申请日 2022.01.28
(71)申请人 无锡雪浪数制科技有限公司
地址 214000 江苏省无锡市经济开发区金
融一街1号昌兴国际金融大厦6楼
(72)发明人 王峰 薛凯
(74)专利代理 机构 无锡华源专利商标事务所
(普通合伙) 32228
专利代理师 孙建
(51)Int.Cl.
G06Q 10/04(2012.01)
G06Q 10/06(2012.01)
G06K 9/62(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
(54)发明名称
一种基于随机森林的光纤生产合格指标预
测方法
(57)摘要
本发明公开了一种基于随机森林的光纤生
产合格指标预测方法, 该方法包括以下步骤: 获
取产品特征流通图, 作为随机森 林算法的输入特
征; 构建决策树节点; 判断所述决策树节点是否
为叶子节点, 若是, 则求当前节点所有Y的平均
值, 若否, 进行下一步; 计算得到训练集合X的特
征个数C和集合大小 N; 判断C是否大于0, 若否, 则
构造左右两个子节点, 两个子节 点递归执行本步
骤, 直到到达叶子节点并返回, 若是则进行下一
步; 切分训练集, 计算切分后的不纯净度; 判断当
前切分点的不纯净度是否小于当前节点最小的
不纯净度, 若是则存储该切分点和切分特征, 若
否则执行下一步; 判断是否遍历到最后一个值。
本发明预测出能优化 生产的参数。
权利要求书2页 说明书7页 附图9页
CN 114462699 A
2022.05.10
CN 114462699 A
1.一种基于随机森林的光纤生产合格指标预测方法, 其特征在于, 该方法包括以下步
骤:
S1: 获取若干个产品的剖面特征, 并将若干个产品的剖面特征组成产品特征流通图, 作
为随机森林算法的输入特 征, 其中, 输入特 征包括芯棒模场直径及折 射率剖面;
S2: 输入训练集合(X, Y), 构建决策树节点, 其中, X为筛选出的产品输入特征, Y为要预
测的合格指标;
S3: 判断所述决策树节点是否为叶子节点, 若是, 则求当前节点所有Y的平均值, 并作 为
该叶子节点的预测值, 并接受训练, 若否, 进行 下一步;
S4: 计算得到训练集 合X的特征个数C和集 合大小N;
S5: 判断C是否大于0, 若否, 则根据当前最优划分, 将训练集合划分为两个集合, 据此构
造左右两个子节点, 两个子节 点递归执行本步骤, 直到到达叶子节点并返回, 若 是则进行下
一步; 其中据此构 造左右两个子节点, 两个子节 点递归执行本步骤, 直到到达叶子节点并返
回, 其中, 还包括以下步骤: 选择第j个特征和它的取值s作为切分变量和切分点, 并将训练
集合(X, Y)划分为区域R1(j, s)和区域R2(j, s), 其中:
R1(j,s)={x∣ x(j)≤s}, R2(j,s)={x∣ x(j)>s};
利用公式:
寻找最
优切分变量j和 切分点s,
i为非零自然数, x、 y为训练集, c1和c2分别表示数据集被划分成两部分后的输出值,
和
表示c1和c2的函数值,ave表示 求平均值 函数;
采用穷举找到最优的切分变量j和最优切分点s, 并继续循环执行S5中的步骤, 直到满
足停止条件;
S6: 遍历第C个特征在训练集中的所有取值, 且以每个值为切分点, 计算切分后的不纯
净度;
S7: 判断当前切分点的不纯净度是否小于当前节点最小的不纯净度, 若是则存储该切
分点和切分特征, 若否则执 行下一步;
S8: 判断是否遍历到最后一个值, 若是, 则执 行步骤S5, 若否, 则执 行步骤S6;
其中, 使用Local Outlier Factor算法来进行原始数据的异常点检测, 并在对输入数
据进行随机森林算法训练前将异常点剔除, 同时在随机森林算法训练过程中, 采用网格搜
索算法来搜寻模型的最佳参数。
2.根据权利要求1所述的一种基于随机森林的光纤生产合格指标预测方法, 其特征在
于, 所述产品的生产过程包括芯棒 生产、 芯棒检测、 光 棒生产、 光纤生产和光纤检测。
3.根据权利要求1所述的一种基于随机森林的光纤生产合格指标预测方法, 其特征在
于, 所述随机森林算法训练后的输出 特征为截止波长和光纤模场直径。
4.根据权利要求1所述的一种基于随机森林的光纤生产合格指标预测方法, 其特征在权 利 要 求 书 1/2 页
2
CN 114462699 A
2于, 所述将若干个产品的剖面特征组成产品特征流通图时, 通过将剖面特征可视化, 提取影
响预测结果的特 征来组成产品特 征流通图。
5.根据权利要求1所述的一种基于随机森林的光纤生产合格指标预测方法, 其特征在
于, 所述使用L ocal Outlier Factor算法来进行异常点检测还 包括以下步骤:
设定点p的第k距离记 做dk(p);
点p的第k距离邻域记为Nk(p), 代表的是点p的第k距离范围以内的所有的数据点, 点p的
第k邻域点个数为|Nk(p)|≥k;
点a对于点p的可达距离 定义为:
d(a,p)=max(dk(p),d(a,p) );
点p的局部可达密度为;
其中, reac h‑dist表示可达距离;
ai的局部离群因子 定义如下:
局部离群因子越小, 局部可达密度越大, ai是离群点
的可能性越小, 反 之ai是异常点的可能性越大,i 为非零自然数。
6.根据权利要求5所述的一种基于随机森林的光纤生产合格指标预测方法, 其特征在
于, 所述使用Local Outlier Factor算法来进行异常点检测之后进行数据点的归一化处
理。
7.根据权利要求6所述的一种基于随机森林的光纤生产合格指标预测方法, 其特征在
于, 所述数据点的归一 化处理包括以下步骤:
对数据点特 征e1,e2,…,en进行标准化:
并得到f1,f2,…,fn∈[0,1], 为无量纲的数据,
是
所运算特征中数据的最小值,
是所运算特征中数据的最大值; j及n均为 非零自然
数。
8.根据权利要求1所述的一种基于随机森林的光纤生产合格指标预测方法, 其特征在
于, 所述采用网格搜索算法来搜寻模型的最佳参数时, 在指 定的参数范围内, 按步长依次调
整参数, 并利用调整的参数训练学习器, 从所有的参数中找到在验证集上精度最高的参数。
9.根据权利要求1所述的一种基于随机森林的光纤生产合格指标预测方法, 其特征在
于, 所述随机森林算法训练过程中, 进 行10折交叉验证来训练模型, 取每次测试指标的均值
作为模型的评价标准。权 利 要 求 书 2/2 页
3
CN 114462699 A
3
专利 一种基于随机森林的光纤生产合格指标预测方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:12:14上传分享