全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210519231.8 (22)申请日 2022.05.12 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 吕中厚 黄英仁 张华正 王洋  田伟娟 干逸显  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06V 30/18(2022.01) G06V 20/30(2022.01) G06V 10/44(2022.01) G06F 40/30(2020.01) (54)发明名称 异常文本识别方法及 装置、 电子设备和存储 介质 (57)摘要 本公开提供了一种异常文本识别方法及装 置、 电子设备和存储介质, 涉及人工智 能技术领 域, 尤其涉及信息安全、 自然语言处理技术领域。 实现方案为: 提取待识别文本的第一文本特征; 基于所述第一文本特征, 从预设的异常文本库中 确定目标异常文本, 所述目标异常文本的第二文 本特征与所述第一文本特征的相似度大于或等 于相似度阈值; 获取所述目标异常文本的置信 度, 所述置信度用于表示所述目标异常文本的异 常程度; 基于所述相似度和所述置信度, 确定所 述待识别文本是否为异常文本 。 权利要求书3页 说明书12页 附图4页 CN 114724146 A 2022.07.08 CN 114724146 A 1.一种异常文本识别方法, 包括: 提取待识别文本的第一文本特 征; 基于所述第一文本特征, 从预设的异常文本库中确定目标异常文本, 所述目标异常文 本的第二文本特 征与所述第一文本特 征的相似度大于或等于相似度阈值; 获取所述目标异常文本的置信度, 其中, 所述置信度用于表示所述目标异常文本的异 常程度; 以及 基于所述相似度和所述置信度, 确定所述待识别文本是否为异常文本 。 2.根据权利要求1所述的方法, 其中, 基于所述相似度和所述置信度, 确定所述待识别 文本是否为异常文本包括: 基于所述相似度和所述置信度, 确定所述待识别文本为异常文本的概 率; 以及 基于所述 概率, 确定所述待识别文本是否为异常文本 。 3.根据权利要求2所述的方法, 其中, 基于所述概率, 确定所述待识别文本是否为异常 文本包括: 响应于所述 概率大于或等于概 率阈值, 确定所述待识别文本为异常文本 。 4.根据权利要求2所述的方法, 其中, 基于所述概率, 确定所述待识别文本是否为异常 文本包括: 响应于所述 概率小于概 率阈值, 生成所述待识别文本的审核任务; 以及 接收所述审核任务的审核结果, 所述审核结果用于指示所述待识别文本是否为异常文 本。 5.根据权利要求1 ‑4中任一项所述的方法, 还 包括: 响应于确定所述待识别文本为异常文本, 将所述待识别文本加入所述异常文本库, 并 初始化所述待识别文本的置信度。 6.根据权利要求5所述的方法, 还 包括: 响应于用户对所述待识别文本的申诉请求, 降低所述待识别文本的置信度。 7.根据权利要求6所述的方法, 还 包括: 响应于所述待识别文本的置信度小于置信度阈值, 从所述异常文本库中移除所述待识 别文本。 8.根据权利要求7 所述的方法, 还 包括: 从所述异常文本库中确定所述待识别文本的相似文本; 以及 从所述异常文本库中移除所述相似文本 。 9.根据权利要求5所述的方法, 还 包括: 响应于预设时长内没有收到用户对所述待识别文本的申诉请求, 提高所述待识别文本 的置信度。 10.根据权利要求1 ‑9中任一项所述的方法, 其中, 所述异常文本库包括多个异常文本, 所述提取待识别文本的第一文本特征包括: 提取待识别文本的多个第一文本特征, 所述多 个第一文本特 征的类型 各不相同, 并且其中, 基于所述第一文本特 征, 从预设的异常文本库中确定目标异常文本包括: 对于所述多个第一文本特 征中的每 个第一文本特 征: 获取该第一文本特征对应的第 二文本特征库, 所述第 二文本特征库包括与 所述多个异权 利 要 求 书 1/3 页 2 CN 114724146 A 2常文本分别对应的多个第二文本特征, 所述多个第二文本特征的类型与该第一文本特征的 类型相同; 以及 分别计算该第一文本特 征与所述多个第二文本特 征的相似度; 以及 响应于所述多个第一文本特征中的任一第一文本特征与目标第二文本特征的相似度 大于或等于所述相似度阈值, 将所述目标第二文本特征对应的异常文本作为所述目标异常 文本。 11.根据权利要求10所述的方法, 其中, 所述多个第一文本特征包括第一字面特征、 第 一语义特征和 第一违规信息编 码, 所述第一违规信息编 码为所述待识别文本中的违规信息 的编码。 12.一种异常文本识别装置, 包括: 提取模块, 被 配置为提取待识别文本的第一文本特 征; 第一确定模块, 被配置为基于所述第一文本特征, 从预设的异常文本库中确定目标异 常文本, 所述目标异常文本的第二文本特征与所述第一文本特征的相似度大于或等于相似 度阈值; 获取模块, 被配置为获取所述目标异常文本的置信度, 其中, 所述置信度用于表示所述 目标异常文本的异常程度; 以及 第二确定模块, 被配置为基于所述相似度和所述置信度, 确定所述待识别文本是否为 异常文本 。 13.根据权利要求12所述的装置, 其中, 所述第二确定模块包括: 第一确定单元, 被配置为基于所述相似度和所述置信度, 确定所述待识别文本为异常 文本的概 率; 以及 第二确定单 元, 被配置为基于所述 概率, 确定所述待识别文本是否为异常文本 。 14.根据权利要求13所述的装置, 其中, 所述第二确定单 元进一步被配置为: 响应于所述 概率大于或等于概 率阈值, 确定所述待识别文本为异常文本 。 15.根据权利要求13所述的装置, 其中, 所述第二确定单 元进一步被配置为: 响应于所述 概率小于概 率阈值, 生成所述待识别文本的审核任务; 以及 接收所述审核任务的审核结果, 所述审核结果用于指示所述待识别文本是否为异常文 本。 16.根据权利要求12 ‑15中任一项所述的装置, 还 包括: 添加模块, 被配置为响应于确定所述待识别文本为异常文本, 将所述待识别文本加入 所述异常文本库, 并初始化所述待识别文本的置信度。 17.根据权利要求16所述的装置, 还 包括: 更新模块, 被配置为响应于用户对所述待识别文本的申诉请求, 降低所述待识别文本 的置信度。 18.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑11中任一项所述的方法。权 利 要 求 书 2/3 页 3 CN 114724146 A 3

PDF文档 专利 异常文本识别方法及装置、电子设备和存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 异常文本识别方法及装置、电子设备和存储介质 第 1 页 专利 异常文本识别方法及装置、电子设备和存储介质 第 2 页 专利 异常文本识别方法及装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:10:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。