全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210062090.1 (22)申请日 2022.01.19 (71)申请人 北京金山云科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院4号楼5层0 06号 (72)发明人 夏文钢  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 曾军 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06K 9/62(2022.01)G06F 40/247(2020.01) (54)发明名称 内容自动审核方法、 装置、 存储介质以及电 子设备 (57)摘要 本发明公开了一种内容自动审核方法、 装 置、 存储介质以及电子设备。 该方法包括: 获取待 审核的原始文本; 对原始文本进行文本结构分 析, 得到原始文本的结构化文本; 对结构化文本 进行垃圾内容过滤、 情感分析、 文本内容聚类以 及内容排序, 得到结构化文本的优化文本; 对优 化文本进行审核; 在优化文本审核通过的情况 下, 上传优化文本。 本发明解决了文本内容存在 无意义内容或者敏感内容造成的审核准确度低 的技术问题。 权利要求书2页 说明书11页 附图4页 CN 114462402 A 2022.05.10 CN 114462402 A 1.一种内容自动审核方法, 其特 征在于, 包括: 获取待审核的原 始文本; 对所述原 始文本进行文本结构分析, 得到所述原 始文本的结构化文本; 对所述结构化文本进行垃圾内容过滤、 情感分析、 文本内容聚类以及内容排序, 得到所 述结构化文本的优化文本; 对所述优化文本进行审核; 在所述优化文本审核通过的情况 下, 上传所述优化文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述原始文本进行文本结构分析, 得到所述原 始文本的结构化文本包括: 对所述原始文本进行分词、 词性标注、 实体识别以及 关键词抽取, 删除所述原始文本的 无效信息, 得到所述原 始文本的结构化文本 。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述原始文本进行分词、 词性标注、 实体识别以及关键词抽取, 删除所述原始文本的无效信息, 得到所述原始文本的结构化文 本包括: 对所述原 始文本进行分词, 得到分词后的文本; 对所述分词后的文本进行词性标注, 得到标注后的文本; 识别所述标注后的文本中的实体对象; 根据所述实体对象, 从所述标注后的文本中抽取关键词; 将抽取的所述关键词作为所述结构化文本 。 4.根据权利要求1所述的方法, 其特征在于, 对所述结构化文本进行垃圾内容过滤包 括: 将所述结构化文本中的每一个词与垃圾词库中的词进行比对; 在所述结构化文本 中存在属于所述垃圾词库的第 一词汇的情况下, 将所述第 一词汇从 所述结构化文本中删除。 5.根据权利要求1所述的方法, 其特 征在于, 对所述结构化文本进行情感分析包括: 提取所述结构化文本中的情感词汇; 对所述情感词汇进行分类; 按照每一类所述情感词汇的占比, 确定所述结构化文本的情感类型。 6.根据权利要求1所述的方法, 其特征在于, 对所述结构化文本进行文本内容 聚类与内 容排序包括: 解析所述结构化文本中的每一个关键词的含义; 将含义相同的所述关键词划分为一类, 以将所述结构化文本 中的所有关键词划分为多 个类别; 从不同类别的关键词中选择一个关键词; 将选择的所述关键词排序为所述结构化文本 。 7.根据权利要求1所述的方法, 其特征在于, 所述对所述结构化文本进行垃圾内容过 滤、 情感分析、 文本内容聚类以及内容 排序, 得到所述结构化文本的优化文本包括: 由序列标注模型识别所述结构化文本, 输出所述优化文本, 其中, 所述序列 标注模型为 预先使用样本数据训练得到的模型, 所述序列标注模型中包含训练参数, 所述序列标注模权 利 要 求 书 1/2 页 2 CN 114462402 A 2型用于识别所述样本数据输出所述样本数据的优化文本, 在所述样本数据的所述优化文本 审核不通过的情况 下, 调整所述训练参数。 8.根据权利要求1至7任意 一项所述的方法, 其特 征在于, 所述方法还 包括: 比对所述原 始文本与所述优化文本; 在所述原始文本中除所述优化文本之外的剩余文本占据所述原始文本的比例超过第 一阈值的情况下, 从所述原始文本中标注出所述剩余文本的位置, 并提示所述剩余文本为 冗余文本; 在所述原始文本 中除所述优化文本之外的剩余文本包括实体的情况下, 从所述原始文 本中标注出 所述剩余文本的位置, 并提 示所述剩余文本为待修 正文本。 9.一种内容自动审核装置, 其特 征在于, 包括: 获取模块, 用于获取待审核的原 始文本; 第一处理模块, 用于对所述原始文本进行文本结构分析, 得到所述原始文本的结构化 文本; 第二处理模块, 用于对所述结构化文本进行垃圾内容过滤、 情 感分析、 文本内容聚类以 及内容排序, 得到所述结构化文本的优化文本; 审核模块, 用于对所述优化文本进行审核; 上传模块, 用于在所述优化文本审核通过的情况 下, 上传所述优化文本 。 10.一种计算机可读的存储介质, 所述计算机可读的存储介质存储有计算机程序, 其特 征在于, 所述计算机程序被处 理器运行时执 行所述权利要求1至8任一项中所述的方法。 11.一种电子设备, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方 法。权 利 要 求 书 2/2 页 3 CN 114462402 A 3

PDF文档 专利 内容自动审核方法、装置、存储介质以及电子设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 内容自动审核方法、装置、存储介质以及电子设备 第 1 页 专利 内容自动审核方法、装置、存储介质以及电子设备 第 2 页 专利 内容自动审核方法、装置、存储介质以及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。