全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210237383.9 (22)申请日 2022.03.10 (71)申请人 北京思源智通科技有限责任公司 地址 102400 北京市房山区阎富路69号院 46号楼1至4层101二层07 (72)发明人 李根柱  (74)专利代理 机构 深圳市添源创鑫知识产权代 理有限公司 4 4855 专利代理师 朱丽萍 (51)Int.Cl. G06F 40/284(2020.01) G06F 16/23(2019.01) (54)发明名称 一种文本 关键词分析方法、 系统及计算机可 读介质 (57)摘要 本发明涉及自然语 言处理技术领域, 具体涉 及一种文本关键词分析方法、 系统及计算机可读 介质, 包括以下步骤: Step1: 接收目标文件, 识别 文本中语言文字, 将目标文件中语 言文字形式外 数据内容设置为候选编辑文件; Step 2: 建立语言 文字数据库, 参考语言文字数据库分析目标文件 中语言文字属性; Step3: 分析目标文件中语言文 字标题, 根据语 言文字标题捕捉目标文件中语言 文字相同项; 建立语言文字释义库; 本发明为文 本关键词的提取提供了一种分析方法, 该方法适 用于任意中的语 言文字, 并且对于图片中的语言 文字也可通过扫描的方式进行分析参与到文本 关键词的提取分析当中, 从而使得文本关键词的 提取分析 更加全面。 权利要求书2页 说明书6页 附图3页 CN 114611507 A 2022.06.10 CN 114611507 A 1.一种文本关键词分析 方法, 其特 征在于, 包括以下步骤: Step1: 接收目标文件, 识别文本中语言文字, 将目标文件中语言文字形式外数据内容 设置为候选编辑文件; Step2: 建立语言文字数据库, 参 考语言文字数据库分析目标文件中语言文字属性; Step3: 分析目标文件中语言文字标题, 根据语言文字标题捕捉目标文件中语言文字相 同项; 建立语言文字释义库, 提取目标文件中语言文字词语转入语言文字释义库中进行释 义, 捕捉释义内容中词汇相同项; Step4: 获取相同项, 分析相同项出现频率, 根据相同项出现频率设置相同项有效区间, 捕捉有效区间内相同项; Step5: 将有效区间内相同项与目标文件内容中语言文字相匹配判断是否存在有相同 项相同的语言文字; Step6: 当步骤Step5中判断结果为是时, 将有效区间内相同项汇总载入目标文件同属 匣中; Step7: 当步骤Step5中判断结果为否时, 检索相同项生成源, 将相同项生成源作替换相 同项; Step8: 将目标文件所属相同项作为目标文件检索触发条件关键词; 将汇总的相同项向 上级汇报。 2.根据权利要求1所述的一种文本关键词分析方法, 其特征在于, 所述步骤Step1中设 置有子步骤, 包括以下步骤: Step11: 在语言文字数据库中建立语言文字 字体识别子数据库; Step12: 选择性扫描候选编辑文件, 获取候选编辑文件中线条生成可编辑图形文件; Step13: 根据语言文字 字体识别子数据库对照生成的可编辑图形文件捕捉语言文字 。 3.根据权利要求1所述的一种文本关键词分析方法, 其特征在于, 所述步骤Step2中在 进行分析目标文件中语言文字属性的过程中步进使用步骤Step11辅助分析, 其中步骤 Step2中分析目标文件中语言文字属性操作在步骤Step1 1执行结束后运行。 4.根据权利要求1所述的一种文本关键词分析方法, 其特征在于, 所述步骤Step3中包 含子步骤Step31: 将 捕捉到的语言文字参 考目标文件的内容逻辑 排版插入到相应位置 。 5.根据权利要求1所述的一种文本关键词分析方法, 其特征在于, 所述步骤Step3中的 语言文字释义库设置有更新 程序, 包括以下步骤: Step311: 建立数据网络连接通道, 设置通道连通周期, 在每一连通周期结束后连通互 联网; Step312: 在连通网络的状态下进行网页热点检索, 提取检索内容词汇, 将检索内容词 汇与语言文字数据库进行比较, 获取语言文字数据库中不存在目标; Step313: 在网页依次检索不存在目标释义, 根据检索到的不存在目标释义对不存在目 标进行学习并载入语言文字数据库中。 6.一种文本关键词分析系统, 所述系统是对如权利要求1 ‑5中任意一项所述文本关键 词分析方法的实施系统, 其特 征在于, 包括: 控制终端 (1) , 是系统的总控制端, 用于发出控制命令供 下级各模块执 行; 接收模块 (2) , 用于 接收需要 进行文本关键词分析的文件;权 利 要 求 书 1/2 页 2 CN 114611507 A 2分析模块 (3) , 用于分析接收文件中可读内容数据; 捕捉模块 (4) , 用于捕捉分析模块 (3) 中可读内容数据中各关键词; 选择模块 (5) , 用于 选择捕捉模块 (4) 中 高概率关键词; 释义模块 (6) , 用于提取文件关键句并对关键句进行释义; 用于对选择模块 (5) 选择的 关键词进行释义; 比较模块 (7) , 用于比较示 意模块 (6) 中的关键句释义与关键词释义; 评估模块 (8) , 用于评估比较模块 (7) 中关键句释义对应的关键词释义, 判断关键词释 义与关键句释义的匹配度; 输出模块 (9) , 用于选择评估模块 (8) 中匹配度≥80%的关键词进行输出反馈至控制终 端 (1) 。 7.根据权利要求6所述的一种文本关键词分析系统, 其特征在于, 所述捕捉模块 (4) 中 包含有合计单 元 (41) , 用于统计捕捉模块 (4) 中各同源关键词出现的次数。 8.根据权利要求6所述的一种文本关键词分析系统, 其特征在于, 所述选择模块 (5) 中 包含有设定单元 (51) , 用于排序各关键词, 排序逻辑参考各关键词出现次数降序排列, 设定 各关键词前置位取用数量。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1‑5 任意一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1 ‑5任意一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114611507 A 3

PDF文档 专利 一种文本关键词分析方法、系统及计算机可读介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本关键词分析方法、系统及计算机可读介质 第 1 页 专利 一种文本关键词分析方法、系统及计算机可读介质 第 2 页 专利 一种文本关键词分析方法、系统及计算机可读介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:50:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。