全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211359225.7 (22)申请日 2022.11.02 (71)申请人 思创数码科技股份有限公司 地址 330000 江西省南昌市高新区火炬 大 道681号 (72)发明人 杨小明 周金平 涂旭青  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 何世磊 (51)Int.Cl. G06F 16/33(2019.01) G06F 40/186(2020.01) G06K 9/62(2022.01) G06N 5/00(2006.01) (54)发明名称 政务数据分析报告图表自动化分析解读方 法及系统 (57)摘要 本发明公开了一种政务数据分析报告图表 自动化分析解读方法及系统, 该方法包括: 获取 已产出的分析报告图表及对应的文字解读信息; 从分析报告图表中提取出分析图表特征, 并将文 字解读信息归纳整理为文字解读模板; 将文字解 读模板作为预测变量, 分析图表特征作为输入变 量, 构建随机森林模型; 将待分析的目标分析报 告图表输入至随机森 林模型中进行预测, 得到相 应的目标文字解读模板, 同时获取分析报告图表 中的相关指标信息; 将相关指标信息填入目标文 字解读模板中, 生成最终的图表文字解读结果。 本发明能够解决人工分析解读耗时久、 容易遗漏 信息的问题。 权利要求书2页 说明书7页 附图2页 CN 115408499 A 2022.11.29 CN 115408499 A 1.一种政务数据分析报告图表自动化分析解读方法, 其特 征在于, 包括: 获取已产出的分析报告图表及对应的文字解读信息; 从所述分析报告图表中提取出分析图表特征, 并将所述文字解读信 息归纳整理为文字 解读模板; 将所述文字解读模板作为预测变量, 所述分析图表特征作为输入变量, 构建随机森林 模型, 其中, 采用贪心算法构建随机森林模型的各个参数区间, 进行多次组合模拟预测, 并 基于查准率、 查全率及F1分数来确定随机森林模型的最终参数; 将待分析的目标分析报告图表输入至随机森林模型中进行预测, 得到相应的目标文字 解读模板, 同时获取 所述分析报告图表中的相关指标信息; 将所述相关指标信息填入所述目标文字解读模板中, 生成最终的图表文字解读结果。 2.根据权利要求1所述的政务数据分析报告图表自动 化分析解读方法, 其特征在于, 所 述方法还 包括: 获取所述图表文字解读结果中所有以最大最小差异值作为差异指标的文字解读子项; 根据各个文字解读子项的关键性得分以及差异性权重, 计算各个文字解读子项的最终 权重得分; 按照最终权重得分从高到低的顺序, 在所述图表文字解读结果中对各个文字解读子项 进行重新 排序。 3.根据权利要求2所述的政务数据分析报告图表自动 化分析解读方法, 其特征在于, 根 据各个文字解读子项的关键性得分以及差异 性权重, 计算各个文字解读子项的最 终权重得 分步骤中, 对于第i个文字解读子项, 采用下式计算 最终权重得分: Si=ai+[Xi‑min(X))/(max(X) ‑min(X)]*bi 其中, Si表示第i个文字解读子项的最终权重得分, ai表示第i个文字解读子项的关键性 得分, bi表示第i个文 字解读子项的差异性权重, Xi表示第i个文 字解读子项的最 大最小差异 值, X表示所有文字解读 子项的最大最小差异值组成的集合, min(X)表示集合中数值最小的 最大最小差异值, max(X)表示 集合中数值 最大的最大最小差异值。 4.根据权利要求1所述的政务数据分析报告图表自动 化分析解读方法, 其特征在于, 所 述随机森林模型的训练过程 为: 将训练样本进行可放 回随机抽样得到K组子数据集, K组子数据集的样本量与训练样本 的数据集保持一 致; 从训练样本的n个分析图表特 征中随机抽样出m个最优的分析图表特 征, 其中, m≤n; 根据m个最优的分析图表特征, 对每组子数据集构建最优决策树学习模型, 以生成K个 决策树结果; 根据K个决策树的结果, 选取票数最多的最优决策树学习模型作为训练好的随机森林 模型。 5.根据权利要求1所述的政务数据分析报告图表自动 化分析解读方法, 其特征在于, 所 述分析图表特征至少包括图表类型、 分析类型、 字段变量名、 字段 因变量名、 表名及表注释、 显示值、 值对比。 6.一种政务数据分析报告图表自动化分析解读系统, 其特 征在于, 包括: 第一获取模块, 用于获取已产出的分析报告图表及对应的文字解读信息;权 利 要 求 书 1/2 页 2 CN 115408499 A 2提取归纳模块, 用于从所述分析报告图表中提取出分析图表特征, 并将所述文字解读 信息归纳整理为文字解读模板; 构建模块, 用于将所述文字解读模板作为预测变量, 所述分析图表特征作为输入变量, 构建随机森林模型, 其中, 采用贪心 算法构建随机森林模型的各个参数区间, 进 行多次组合 模拟预测, 并基于查 准率、 查全率及F1分数来确定随机森林模型的最终参数; 输入分析模块, 用于将待分析的目标分析报告图表输入至随机森林模型中进行预测, 得到相应的目标文字解读模板, 同时获取 所述分析报告图表中的相关指标信息; 填入生成模块, 用于将所述相关指标信息填入所述目标文字解读模板中, 生成最终的 图表文字解读结果。 7.根据权利要求6所述的政务数据分析报告图表自动 化分析解读系统, 其特征在于, 所 述系统还 包括: 第二获取模块, 用于获取所述图表文字解读结果中所有以最大最小差异值作为差异指 标的文字解读子项; 计算模块, 用于根据各个文字解读子项的关键性得分 以及差异性权重, 计算各个文字 解读子项的最终权 重得分; 排序模块, 用于按照最终权重得分从高到低的顺序, 在所述图表文字解读结果中对各 个文字解读子项 进行重新 排序。 8.根据权利要求7所述的政务数据分析报告图表自动 化分析解读系统, 其特征在于, 对 于第i个文字解读子项, 采用下式计算 最终权重得分: Si=ai+[Xi‑min(X))/(max(X) ‑min(X)]*bi 其中, Si表示第i个文字解读子项的最终权重得分, ai表示第i个文字解读子项的关键性 得分, bi表示第i个文 字解读子项的差异性权重, Xi表示第i个文 字解读子项的最 大最小差异 值, X表示所有文字解读 子项的最大最小差异值组成的集合, min(X)表示集合中数值最小的 最大最小差异值, max(X)表示 集合中数值 最大的最大最小差异值。 9.根据权利要求6所述的政务数据分析报告图表自动 化分析解读系统, 其特征在于, 所 述随机森林模型的训练过程 为: 将训练样本进行可放 回随机抽样得到K组子数据集, K组子数据集的样本量与训练样本 的数据集保持一 致; 从训练样本的n个分析图表特 征中随机抽样出m个最优的分析图表特 征, 其中, m≤n; 根据m个最优的分析图表特征, 对每组子数据集构建最优决策树学习模型, 以生成K个 决策树结果; 根据K个决策树的结果, 选取票数最多的最优决策树学习模型作为训练好的随机森林 模型。 10.根据权利要求6所述的政务数据分析报告图表自动化分析解读系统, 其特征在于, 所述分析图表特征至少包括图表类型、 分析类型、 字段变量名、 字段因变量名、 表名及表注 释、 显示值、 值对比。权 利 要 求 书 2/2 页 3 CN 115408499 A 3

PDF文档 专利 政务数据分析报告图表自动化分析解读方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 政务数据分析报告图表自动化分析解读方法及系统 第 1 页 专利 政务数据分析报告图表自动化分析解读方法及系统 第 2 页 专利 政务数据分析报告图表自动化分析解读方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:39:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。