全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210998296.5 (22)申请日 2022.08.19 (71)申请人 金现代信息产业股份有限公司 地址 250000 山东省济南市高新区新 泺大 街1166号奥盛大厦2号楼21层东区 2101 (72)发明人 谢玉鑫 胡杨 杜伟 张传慧  石瑞东 冯雪芹 王辉 钟佳  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 黄海丽 (51)Int.Cl. G06V 30/416(2022.01) G06F 16/25(2019.01) G06F 8/73(2018.01) (54)发明名称 将源码文件识别成结构化数据的方法及系 统 (57)摘要 本发明公开了将源码文件识别成结构化数 据的方法及系统; 其中, 所述方法包括: 获取 JavaScrip t脚本文件; 对JavaScrip t脚本文件的 文件内容进行格式转换; 将格式转换后的多行文 本转化为单行文本; 根据JavaScrip t脚本文件的 编码规范, 识别出单行文本中被注释的文本内 容; 对将识别出的内容, 删除无效内容, 得到去除 无效内容后的字符串; 对去除无效内容后的字 符 串, 进行有效内容筛选, 筛选出JavaScript脚本 文件的有效内容; 对JavaScrip t脚本文件的有效 内容, 筛选出结构化数据。 权利要求书2页 说明书5页 附图1页 CN 115331250 A 2022.11.11 CN 115331250 A 1.将源码文件识别成结构化数据的方法, 其特 征是, 包括: 获取JavaScript脚本文件; 对JavaScript脚本文件的文件内容进行格式转换; 将格式转换后的多行文本转化为单 行文本; 根据JavaScript脚本文件的编码规范, 识别出单行文本中被注释的文本内容; 对将识 别出的内容, 删除无效内容, 得到去除无效内容后的字符串; 对去除无效内容后的字符串, 进行有效内容筛选, 筛选出JavaScript脚本文件的有效 内容; 对JavaScript脚本文件的有效内容, 筛 选出结构化数据。 2.如权利要求1所述的将源码文件识别成结构化数据的方法, 其特征是, 获取 JavaScript脚本文件, 具体是指, 对指令目录进行遍历, 通过文件后缀识别出所有的 JavaScript脚本文件。 3.如权利 要求1所述的将源码文件识别成结构化数据的方法, 其特征是, 对JavaScript 脚本文件的文件内容进行格式转换, 是指, 将J avaScript脚本文件的文件内容转化为UTF ‑8 编码格式的字符串。 4.如权利要求1所述的将源码文件识别成结构化数据的方法, 其特征是, 根据 JavaScript脚本文件的编码规范, 识别出 单行文本中被注释的文本内容; 具体包括: 根据JavaScript脚本文件的多行注释符号, 识别出对方法的解释; 根据JavaScript脚本文件的单 行注释符号, 识别出 方法体内的备注说明; 根据JavaScript脚本文件的文档注释符号, 识别出代码块。 5.如权利要求1所述的将源码文件识别成结构化数据的方法, 其特征是, 对将识别出的 内容, 删除无效内容, 得到去除无效内容后的字符串; 其中, 无效内容, 包括: 方法体内的备 注说明和代码块。 6.如权利要求1所述的将源码文件识别成结构化数据的方法, 其特征是, 对去除无效内 容后的字符串, 进行有效内容筛 选, 筛选出JavaScript脚本文件的有效内容; 具体包括: 利用java的正则表达式regex, 并设置好匹配规则, 调用Pattern对象的matcher方法, 筛选出文件中定义的方法。 7.如权利 要求1所述的将源码文件识别成结构化数据的方法, 其特征是, 对JavaScript 脚本文件的有效内容, 筛选出结构化数据; 其中, 结构化数据, 包括方法描述、 方法详细 描述 和参数描述; 根据@name注释, 对JavaScript脚本文件的有效内容, 筛 选出方法描述; 根据@descripti on注释, 对JavaScript脚本文件的有效内容, 筛 选出方法详细描述; 根据@param注释, 对JavaScript脚本文件的有效内容, 筛 选出参数描述。 8.将源码文件识别成结构化数据的系统, 其特 征是, 包括: 获取模块, 其被 配置为: 获取JavaScript脚本文件; 格式转换模块, 其被配置为: 对JavaScript脚本文件的文件内容进行格式转换; 将格式 转换后的多行文本转 化为单行文本; 内容识别模块, 其被配置为: 根据JavaScript脚本文件的编码规范, 识别出单行文本中 被注释的文本内容; 对将识别出的内容, 删除无效内容, 得到去除无效内容后的字符串;权 利 要 求 书 1/2 页 2 CN 115331250 A 2有效内容筛选模块, 其被配置为: 对去除无效内容后的字符串, 进行有效内容筛选, 筛 选出JavaScript脚本文件的有效内容; 结构化数据筛选模块, 其被配置为: 对JavaScript脚本文件的有效内容, 筛选出结构化 数据。 9.一种电子设备, 其特 征是, 包括: 存储器, 用于非暂时性存 储计算机可读指令; 以及 处理器, 用于运行 所述计算机可读指令, 其中, 所述计算机可读指令被所述处理器运行时, 执行上述权利要求1 ‑7任一项所述的 方法。 10.一种存储介质, 其特征是, 非暂时性地存储计算机可读指令, 其中, 当所述非暂时性 计算机可读指令由计算机执 行时, 执行权利要求1 ‑7任一项所述方法的指令 。权 利 要 求 书 2/2 页 3 CN 115331250 A 3

PDF文档 专利 将源码文件识别成结构化数据的方法及系统

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 将源码文件识别成结构化数据的方法及系统 第 1 页 专利 将源码文件识别成结构化数据的方法及系统 第 2 页 专利 将源码文件识别成结构化数据的方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:01:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。