全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210004973.7 (22)申请日 2022.01.05 (71)申请人 上海应用技 术大学 地址 201418 上海市奉贤区海泉路10 0号 (72)发明人 李宗伟 李镇宇  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 宣慧兰 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06Q 40/04(2012.01) (54)发明名称 一种基于短语向量构造的年报风险挖掘系 统和方法 (57)摘要 本发明涉及一种基于短语向量构造的年报 风险挖掘系统和方法, 包括年报风险信息提取模 块、 风险因子挖掘模块、 风险短语向量构造模块 和自动化统计和可视化模块; 本发 明可以根据输 入上市公司股票代码和年份范围自动下载相关 年报, 并提取年报中风险部分文本, 从中挖掘出 风险短语, 构建短语知识库, 以用于进一步挖掘 风险因子; 本发明的Doc2Vector算 法对短语知 识 库进行模型训练, 并推理出风险短语和风险因子 的代表向量; 本发明计算代表向量间的余弦相似 度, 自动统计风险因子在年报中的显现信息和共 现信息。 与现有技术相比, 本发明具有避免了人 工判断的主观性, 同时节省了大量人工操作, 适 合对大批量 年报进行风险挖掘等优点。 权利要求书3页 说明书7页 附图2页 CN 114492392 A 2022.05.13 CN 114492392 A 1.一种基于短语向量构造的年报风险挖掘系统, 其特征在于, 包括年报风险信息提取 模块、 风险因子挖掘模块、 风险短语向量构造模块、 自动化统计和可视化模块, 其中: 年报风险信 息提取模块, 系统根据输入的上市公司股票代码和年份范围可以确定风险 挖掘目标, 形成获取任务, 自动下 载年报并提取年报中风险部分文本; 风险因子挖掘模块, 从提取的风险部分文本中过滤出风险短语并构造风险短语知识 库, 根据TF ‑IDF值从中挖掘出风险因子作为输出; 风险短语向量构造模块, 根据风险短语知识库训练短语向量模型, 并推理出短语向量; 自动化统计和可视化模块, 根据短语向量统计风险因子在年报中显现信 息和共线信 息 并对结果进行 数据可视化。 2.根据权利要求1所述的一种基于短语向量构造的年报风险挖掘系统, 其特征在于, 所 述年报风险信息提取模块包括上市公司年报获取 单元和风险文本处 理单元, 其中: 上市公司年报获取单元, 根据输入上市公司股票代码和年份范围确定风险挖掘目标, 形成获取任务, 下 载年报材 料; 风险文本处 理单元, 对年报材 料进行风险文本提取。 3.根据权利要求1所述的一种基于短语向量构造的年报风险挖掘系统, 其特征在于, 所 述风险因子挖掘模块包括短语知识库构建单 元和风险因子过 滤单元, 其中: 短语知识库构建单元, 对风险文本进行短语粒度级别分解, 组建风险相关的风险短语 知识库; 风险因子过滤单元, 根据组成短语的词的词性和短语的TF ‑IDF值自动过滤出风险短语 知识库中核心短语, 并规范化 为风险因子 。 4.根据权利要求1所述的一种基于短语向量构造的年报风险挖掘系统, 其特征在于, 所 述风险短语 向量构造模块包括知识库短语向量训练单元和 风险短语、 因子转化向量单元, 其中: 知识库短语向量训练单 元, 根据风险短语知识库训练短语向量模型; 风险短语、 因子转化向量单元, 使用训练所得短语向量模型推理风险短语、 风险因子的 代表向量。 5.根据权利要求1所述的一种基于短语向量构造的年报风险挖掘系统, 其特征在于, 所 述自动化统计和可视化模块包括全自动统计单 元和数据可视化单 元, 其中: 全自动统计单元, 根据计算风险因子代表向量和风险短语代表向量间的余弦相似度全 自动统计年报中风险因子的显现信息和共现信息; 数据可视化单 元, 用于对统计的最终结果进行 数据可视化分析。 6.根据权利要求5所述的一种基于短语向量构造的年报风险挖掘系统, 其特征在于, 所 述全自动统计单元统计的年报中风险因子的显现信息和共现信息包括在年报中风险因子 出现的次数、 风险因子出现的可能性、 风险因子出现的影响力、 不同风险因子之 间的共现次 数和共现互联强度。 7.根据权利要求6所述的一种基于短语向量构造的年报风险挖掘系统, 其特征在于, 所 述全自动统计单元统计中, 对于任何风险因子i的风险因子出现的可能性likelihoodi和风 险因子出现的影响力impacti计算公式如下 所示:权 利 要 求 书 1/3 页 2 CN 114492392 A 2其中, Ni代表风险因子i出现的年报数, likelihoodi, n代表单份年报中风险因子的可能 性, 取值范围为1至10, impacti,n代表单份年报中风险因子的影响力, 取值范围为1至10 。 8.根据权利要求6所述的一种基于短语向量构造的年报风险挖掘系统, 其特征在于, 所 述全自动统计单元 统计中, 对于任何两个不同风险因子i和j的风险因子 之间的共现互联强 度interconnectionij计算公式如下 所示: 其中, 其中N代表年报的总份数, 代表风险i和j在N份年报中共现的总次 数, pairmax代表所有共现关系中共现总次数最大的值。 9.一种使用如权利要求1 ‑8任意一项所述的基于短语向量构造的年报风险挖掘系统的 方法, 其特 征在于, 具体包括以下步骤: S1、 根据输入上市公司股票代码和所需年份范围下 载指定年报; S2、 年报风险信息提取模块在获得PDF格式年报后, 自动运行脚本提取出PDF中的全部 文本信息, 然后采用正则表达式截取年报风险部分, 相比较与其它文本切割方法, 正则表达 式可以高效批量分离出规范化 年报中的风险部分文本, 剔除年报中与风险无关文本内容; S3、 当分离出风险部分文本后, 删除格式转化过程中多余的空格和换行符以确保文本 的语义连贯和后续分词的准确性, 随后结合停词表和N ‑Gram算法对风险文本进行分词, 组 成风险部分文本词库; S4、 风险因子挖掘模块在组成风险部分文本词库后, 首先判断词库中词的词性并统计 词频, 然后对相邻的词穷举组合构 造预备短语, 确保短语完备性, 根据词频计算所有短语的 TF‑IDF值, 根据组成短语的词的词性和短语TF ‑IDF值过滤预备短语, 组成短语的词的词性 过滤剔除预备短语中的异常短语, 而短语TF ‑IDF值过滤得到风险部分文本中风险短语的集 合, 组成风险短语知识库; S5、 风险短语向量构造模块在组成风险短语知识库后, 根据风险短语的TF ‑IDF值再次 过滤, 得到核心的风险短语, 并对结果进行规范化处理, 构成风险因子作为风险挖掘指标; 同时采用Doc2Vector算法对风险短语知识库进行模型训练, 与其他词向量模型相比, 训练 得到的短语向量模型不仅可以推理得到被训练的风险短语知识库中的风险短语的代表向 量, 还可以预测得到未被训练的规范化处 理后的风险因子的代 表向量; S6、 自动化统计和可视化模块在获得风险短语知识库、 风险因子和短语向量模型后; 根 据模型推理得到风险短语代表向量和预测得到风险因子代表向量, 从而 可以计算以余弦相 似度为标准的指标和执 行后续自动统计任务; S7、 自动化统计和可视化模块在风险短语、 因子转化向量单元结束后, 计算风险短语代权 利 要 求 书 2/3 页 3 CN 114492392 A 3

PDF文档 专利 一种基于短语向量构造的年报风险挖掘系统和方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于短语向量构造的年报风险挖掘系统和方法 第 1 页 专利 一种基于短语向量构造的年报风险挖掘系统和方法 第 2 页 专利 一种基于短语向量构造的年报风险挖掘系统和方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。