全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210990225.0 (22)申请日 2022.08.18 (71)申请人 新智道枢 (上海) 科技有限公司 地址 201702 上海市青浦区徐民路3 08弄6 号楼6层 (72)发明人 王明光 蒋维 钟浩 孙孝坤  邱世界 高友光 刘红志 徐佳申  曹阳 吴正茂  (74)专利代理 机构 上海创开专利代理事务所 (普通合伙) 31374 专利代理师 汪发成 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/289(2020.01) G06F 40/242(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/26(2012.01) (54)发明名称 一种基于分词和词性标注的警情命名实体 识别方法 (57)摘要 本发明公开了一种基于分词和词性标注的 警情命名实体识别方法, 涉及人工智 能领域。 本 发明包括如下步骤: 输入一段警情文本, 根据停 用词列表和过滤词列表去除停用词和过滤词; 采 用LAC网络框架或自训练框架实现警情文本的分 词及词性的标注; 设置超参数K 以及所要获取的 实体, 并设置一个列表, 从经过前述步骤经过分 词后的集合中, 查找是否包含列表中的元素; 如 有, 再基于词性结果和超参数向前或向后查找对 应词性实体。 本发明实体抽取准确度高, 模型的 可解释性好, 适用于警务行业特征和短文本实体 抽取, 网络 结构易于学习, 过拟合风险小, 且预测 速度相对较快, 基于迁移学习的方式, 增加警务 行业专业数据, 可以做到更加充分的学习。 权利要求书1页 说明书3页 附图2页 CN 115510862 A 2022.12.23 CN 115510862 A 1.一种基于分词和词性标注的警情命名实体识别方法, 其特 征在于, 包括如下步骤: S1、 清洗准备数据: 输入一段警情文本, 根据停用词列表和过滤词列表去除停用词和过 滤词; S2、 分词并进行词性标注: 采用LAC网络框架或自训练框架 实现警情文本的分词及词性 的标注; S3、 基于动态规划前向后向获取实体: 设置超参数K以及所要获取的实体, 并设置一个 列表, 从经过前述步骤经过分词后的集合中, 查找是否包含列表中的元素; 如有, 再基于词 性结果和超参数向前或向后查找对应词性实体。 2.根据权利要求1所述的一种基于分词和词性标注的警情命名实体识别方法, 其特征 在于, 所述S2步骤中使用警务行业专有词汇表对警情文本进行分词, 并使用bi ‑lstm+crf深 度学习的方式对分词的词性进行 标注。 3.根据权利要求1所述的一种基于分词和词性标注的警情命名实体识别方法, 其特征 在于, 所述S1步骤中使用行业字典文件进行预处理, 包括含有对警情文本分类无意义的短 文或符号的停用词列表和过 滤词列表。 4.根据权利要求1所述的一种基于分词和词性标注的警情命名实体识别方法, 其特征 在于, 所述S3步骤中的列表包 含分词对应的实体含义和标签。 5.根据权利要求1所述的一种基于分词和词性标注的警情命名实体识别方法, 其特征 在于, 所述S3步骤中的超参数 K是指前向后向匹配的深度。权 利 要 求 书 1/1 页 2 CN 115510862 A 2一种基于分词和词性标注的警情命名实体识别方 法 技术领域 [0001]本发明属于人工智能领域, 特别是涉及一种基于分词和词性标注的警情命名实体 识别方法。 背景技术 [0002]命名实体识别, 简称NER, 是一段文本中抽取需要的实体, 比如金额、 手机号、 身份 证、 银行卡、 qq、 微信、 车牌等。 对于警务系统, 尤其是指挥中心警情接收端, 显得尤为重要, 它可以大 大简化接警人的重复劳动, 提升 工作效率。 [0003]有学者提出基于正则匹配的方式进行实体识别, 有基于概率统计的方式, 有基于 有使用卷积神经网络、 循环神经网络方式进 行实体识别。 其它还有如: 叶瀚、 孙海春、 李欣所 提出的“融合GCNN与GRU的异常实体识别方法 ”, 以及陈茜、 武星所提出的 “结合上下文词汇 匹配和图卷积的材料数据命名实体识别 ”等技术方案; 但是上述技术方案是基于正则的方 式, 匹配效率太低, 且模式覆盖不全; 基于概率的方式, 不符合常识, 错误率太高; 基于cnn和 rnn等深度学习的方式, 可解释性差 。 [0004]又如申请号为 “CN112287686A ”, 名称为“一种基于语义分析的出警安全防护方 法”, 以及申请号为 “CN112347249A ”, 名称为“一种警情要素提取系统及其提取方法 ”, 上述 技术方案所采用的分词和词性标注以及网络结构、 识别的实体以及识别方法上与本技术方 案不同。 本技术方案对分词及词性进行标注, 并基于动态规划, 由前向后捕获, 从匹配查找 需要的警情实体, 实现高效和精准的实体抽取。 发明内容 [0005]本发明提供了一种基于分词和词性标注的警情命名实体识别方法, 解决了以上问 题。 [0006]为解决上述 技术问题, 本发明是通过以下技 术方案实现的: [0007]本发明的一种基于分词和词性标注的警情命名实体识别方法, 包括如下步骤: [0008]S1、 清洗准备数据: 输入一段警情文本, 根据停用词列表和过滤词列表去除停用词 和过滤词; [0009]S2、 分词并进行词性标注: 采用LAC网络框架或自训练框架实现警情文本的分词 及 词性的标注; [0010]S3、 基于动态规划前向后向获取实体: 设置超参数K以及所要获取的实体, 并设置 一个列表, 从经过前述步骤经过分词后的集合中, 查找是否包含列表中的元素; 如有, 再基 于词性结果和超参数向前或向后查找对应词性实体。 [0011]进一步地, 所述S2步骤中使用警务行业专有词汇表对警情文本进行分词, 并使用 bi‑lstm+crf深度学习的方式对分词的词性进行 标注。 [0012]进一步地, 所述S1步骤中使用行业字典文件进行预处理, 包括含有对警情文本分 类无意义的短文或符号的停用词列表和过 滤词列表。说 明 书 1/3 页 3 CN 115510862 A 3

PDF文档 专利 一种基于分词和词性标注的警情命名实体识别方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于分词和词性标注的警情命名实体识别方法 第 1 页 专利 一种基于分词和词性标注的警情命名实体识别方法 第 2 页 专利 一种基于分词和词性标注的警情命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:41:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。