全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211285569.8 (22)申请日 2022.10.20 (71)申请人 南京大学 地址 210046 江苏省南京市栖霞区仙林大 道163号 (72)发明人 张建兵 褚有刚 王洪科 王久亮  黄书剑 戴新宇 陈家骏  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 胡建华 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/211(2020.01) G06F 16/31(2019.01) G06F 16/33(2019.01) G06N 3/08(2006.01) (54)发明名称 一种面向领域的并行 大规模文本查重方法 (57)摘要 本发明提出了一种面向领域的并行大规模 文本查重方法, 包括: 构建底库和文件查重, 具体 包括: 获取目标查重领域的文档数据, 对所述文 档数据进行处理, 得到文档, 将文档存入 数据库, 得到底库; 将底库中的文档进行分句, 得到句子 数据集; 基于对比学习的方法, 训练句子编码器; 针对句子 数据集中的每个句子创建倒排索引。 针 对待查重的目标文档, 进行分句操作, 得到句子 集合; 对句子集合中的每个句子进行检索, 得到 关联的句子集合; 筛选得到和待查重的目标文档 的句子集合中的每个句子相似的句子以及相似 度集合; 待查重的目标文档的句子集合中的每个 句子及其对应的重复内容组成重复内容即查重 结果, 完成所述面向领域的并行大规模文本查 重。 权利要求书2页 说明书8页 附图3页 CN 115544999 A 2022.12.30 CN 115544999 A 1.一种面向领域的并行 大规模文本查重方法, 其特 征在于, 包括以下步骤: 步骤1, 构建底库, 具体方法包括: 步骤1‑1, 获取目标查重领域的文档数据, 对所述文档数据进行处理, 得到文档, 将文档 存入数据库, 得到底库; 步骤1‑2, 将底库中的文档进行分句, 得到句子数据集; 步骤1‑3, 基于对比学习的方法, 训练句子编码器, 并保存结果; 步骤1‑4, 针对句子数据集中的每 个句子创建倒排索引; 步骤2, 文件查重, 具体方法包括: 步骤2‑1, 针对待查重的目标文档, 进行分句操作, 得到待查重的目标文档的句子集 合; 步骤2‑2, 对待查重的目标文档的句子集合中的每个句子S, 进行检索, 得到关联的句子 集合Srela; 步骤2‑3, 对关联的句子集合Srela进行筛选, 得到和 待查重的目标文档的句子集合中的 每个句子S相似的句子以及相似度集 合Sfinal; 步骤2‑4, 待查重的目标文档的句子集合中的每个句子S及其对应的重复内容Sfinal组成 重复内容即查重结果, 完成所述 面向领域的并行 大规模文本查重 。 2.根据权利要求1所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步骤 1‑1中所述的得到底库的具体方法包括: 从互联网上爬取目标查重领域的文档数据, 从中抽取出纯文本的内容, 经过清洗和去 重之后得到文档, 将文档存储到磁盘上, 并且在数据库即底库中添加相应的文件 条目, 得到 包含文档的底库。 3.根据权利要求2所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步骤 1‑2中所述的将底库中的文档进行分句的具体方法包括: 针对底库中的每个文档, 进行分句, 并将超过预设长度的句子进行截断; 分句结束之 后, 将句子存 储在键值数据库中, 并且添加句子的元信息, 得到所述句子数据集。 4.根据权利要求3所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步骤 1‑3中, 基于对比学习的方法, 训练句子编码器, 具体方法如下; 步骤1‑3‑1, 以BERT作为骨干网络, 使用预 先训练好的SimBERT权 重进行初始化; 步骤1‑3‑2, 迭代的从步骤1 ‑2中所述的句子数据集中随机采样一个批次的句子, 并且 根据每个句子 关联的正样本和负样本计算对比损失, 使用梯度下降算法对 所述骨干网络中 的编码器Encoder的参数进行 更新, 重复直到对比损失不再 下降。 5.根据权利要求4所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步骤 1‑3‑2中所述的每 个句子关联的正样本的形式如下: 正样本构造方式: 对于批次中的每个句子, 从以下的四种方式中随机选择一种生成句 子的正样本: 同义词替换、 交换句子中的两个词语、 插入句子中任一个词语的同义词以及删 除句子中的任一个词语; 此外, 在编码 器Encoder中设置神经元随机失活机制作为额外的数 据增强策略。 6.根据权利要求5所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步骤 1‑3‑2中所述的每 个句子关联的负 样本的形式如下: 负样本构造方式: 对于批次中的每个句子, 从步骤1 ‑2中所述的句子数据集中采样固定权 利 要 求 书 1/2 页 2 CN 115544999 A 2数量的样本, 基于BM25的方法计算相 似度, 选择相 似度最高的样本作为这个句子关联的困 难负样本; 并选用批次内的其 他句子作为简单负 样本。 7.根据权利要求6所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步骤 1‑3‑2中所述的每 个句子关联的对比损失的形式如下: 根据infoNCE趋向于无穷小下的特例, 使用损失自归一 化的方式进行放缩处 理。 8.根据权利要求7所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步骤 1‑4中所述的针对句子数据集中的每 个句子创建倒排索引的具体方法包括: 针对句子数据集中的每个句子, 使用滑动窗口的方式切分为长度为k的片段, 以片段为 键, 以对应的句子的编号作为 值创建倒排索引。 9.根据权利要求8所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步骤 2‑2中所述的进行检索的具体方法包括: 对待查重的目标文档的句子集合中的每个句子S, 使用滑动窗口的方式切分为长度为k 的片段, 根据步骤1 ‑4中所述的倒排索引进行检索, 得到关联的句子集 合Srela。 10.根据权利要求9所述的一种面向领域的并行大规模文本查重方法, 其特征在于, 步 骤2‑3中, 对关联的句子集合Srela进行筛选, 得到和待查重的目标文档的句子集合中的每个 句子S相似的句子以及相似度集 合Sfinal, 具体方法包括: 步骤2‑3‑1, 将关联的句子集合Srela中和句子S完全相同的句子添加到相似度集合Sfinal 中并且设置相似度scoresim为1, 并从关联的句子集 合Srela中过滤掉这些句子; 步骤2‑3‑2, 对于句子S和关联的句子集合Srela中剩下的句子Si两两计算字符串编辑距 离, 并且按照字符串的编辑距离降序排列, 保留前10大的句子得到关联的句子集合Srela= {S′i,1≤i≤10}, 不足10个则全部保存, 其中i表示句子编号, S ′i表示句子集合Srela中的第i 个句子; 步骤2‑3‑3, 使用步骤1 ‑3中训练好的编码器Encoder计算句子S和其关联的句子集合 Srela中剩下的每个句子S ′i的编码向量, 然后根据剩下的每个句子S ′i和句子S的编码向量的 余弦相似度进行重新排序, 筛选出前3大 的句子和其对应的余弦相似度添加到相似度集合 Sfinal中作为句子S和底库比对之后得到的重复内容。权 利 要 求 书 2/2 页 3 CN 115544999 A 3

PDF文档 专利 一种面向领域的并行大规模文本查重方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向领域的并行大规模文本查重方法 第 1 页 专利 一种面向领域的并行大规模文本查重方法 第 2 页 专利 一种面向领域的并行大规模文本查重方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:39:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。