全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211276399.7 (22)申请日 2022.10.19 (71)申请人 有米科技股份有限公司 地址 510006 广东省广州市番禺区小谷围 街青蓝街26号1701 (72)发明人 黄于晏 陈莹莹 杨辰  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 江银会 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 基于文本模态自监督的文本去重方法及装 置 (57)摘要 本发明公开了一种基于文本模态自监督的 文本去重方法及装置, 该方法包括: 通过训练好 的文本编码器生成预先存储的文本集合中每个 文本对应的特征向量; 根据文本集合中每个文本 对应的特征向量, 按照预先确定出的文本分组条 件将文本集合中的所有文本划分为多个子文本 集合, 不同的子文本集合包括的任一文本均不相 同; 对于每个子文本集合, 计算该子文本集合中 每两个文本之间的相似度, 并根据该子文本集合 中每两个文本之间的相似度与预先确定出的相 似度阈值, 对 该子文本集合中的文本执行去重操 作。 可见, 实施本发明能够提高文本的去重效率。 权利要求书3页 说明书16页 附图3页 CN 115357690 A 2022.11.18 CN 115357690 A 1.一种基于文本模态自监 督的文本去重方法, 其特 征在于, 所述方法包括: 通过训练好的文本编码器生成预 先存储的文本集 合中每个文本对应的特 征向量; 根据所述文本集合中每个文本对应的特征向量, 按照预先确定出的文本分组条件将所 述文本集合中的所有文本划分为多个子文本集合, 不同的所述子文本集合包括的任一文本 均不相同; 对于每个所述子文本集合, 计算该子文本集合中每两个文本之间的相似度, 并根据该 子文本集合中每两个文本之 间的相似度与预先确定出的相似度阈值, 对该子文本集合中的 文本执行去重操作。 2.根据权利要求1所述的基于文本模态自监督的文本去重方法, 其特征在于, 对于每个 所述子文本集合, 所述根据该子文本集合中每两个文本之 间的相似度与预先确定出的相似 度阈值, 对该子文本集 合中的文本执 行去重操作, 包括: 根据预先确定出的相似度阈值, 从所述子文本集合中每两个文本之间的相似度中确定 出相似度大于等于所述相似度阈值的至少一个目标相似度; 对于每个所述目标相似度, 从该目标相似度对应的两个文本中选择待去 除文本, 并删 除该待去除文本 。 3.根据权利要求1所述的基于文本模态自监督的文本去重方法, 其特征在于, 所述按照 预先确定出的文本分组条件将所述文本集 合中的所有 文本划分为多个子文本集 合, 包括: 计算基准文本对应的特征向量与所述文本集合中每个文本对应的特征向量之间的第 一距离值; 确定多个距离范围, 其中, 不同的所述距离范围不存在重 叠的距离值; 对于所有所述第一距离值, 确定每个所述第一距离值所属的距离范围, 并将每个所述 第一距离值对应的文本 分类至其所属的距离范围所对应的子文本集合, 得到多个子文本集 合; 或者, 对于所述文本集合中的每个文本, 根据预设转化参数将该文本对应的特征向量进行转 化, 得到该文本对应的二值向量, 并对 该文本对应的二值向量进 行分段处理, 得到该文本对 应的多个子向量; 对于确定出的待分组文本集合中每个待分组文本, 根据 该待分组文本对应的所有子向 量以及所述待分组文本集合中每个其它待分组文本对应的所有子向量, 从所有其它待分组 文本中确定与该待分组文本对应的所有文本, 并将该待分组文本以及该待分组文本相匹配 的所有文本确定为一个子文本集合, 并从所述待分组文本集合中删除该待分组文本以及与 该待分组文本相匹配的所有文本, 以更新所述待分组文本集合, 并继续执行所述的对于确 定出的待分组文本集合中每个待分组文本, 根据该待分组文本对应的所有子向量以及所述 待分组文本集合中每个其它待分组文本对应的所有子向量, 从所有其它待分组文本中确定 与该待分组文本对应的所有文本, 并将该待分组文本以及该待分组文本相匹配的所有文本 确定为一个子文本集合, 并从所述待分组文本集合中删除该待分组文本以及与该待分组文 本相匹配的所有 文本, 直至所述待分组文本集 合中不存在待分组文本; 其中, 初始确定出的所述待分组文本集合为所述文本集合, 所述文本集合中的每个文 本对应的每个子向量存在对应的位置标签, 同一所述子文本集合中的每个文本对应的所有 子向量中, 所述 位置标签相同的子向量相同。权 利 要 求 书 1/3 页 2 CN 115357690 A 24.根据权利要求1所述的基于文本模态自监督的文本去重方法, 其特征在于, 在所述通 过训练好的文本编 码器生成预先存储的文本集合中每个文本对应的特征向量之前, 所述方 法还包括: 对预先确定出的原 始文本编码器执 行训练操作直至收敛, 得到训练好的文本编码器; 其中, 所述对预先确定出的原始文本编码器执行训练操作直至收敛, 得到训练好的文 本编码器, 包括: 获取待训练的文本训练集, 所述文本训练集包括多个训练文本对, 每个所述训练文本 对包括相应的原始训练文本及该原始训练文本对应的目标训练文本, 该原始训练文本对应 的目标训练文本是对该原 始训练文本执 行数据增强操作得到的; 将所有所述训练文本对分别输入预先确定出的原始文本编码器以对所述原始文本编 码器进行训练得到训练后文本编码器; 判断所述训练后文本编码器是否收敛, 当判断结果为是时, 将所述训练后文本编码器 确定为训练好的文本编码器。 5.根据权利要求4所述的基于文本模态自监督的文本去重方法, 其特征在于, 所述判断 所述训练后文本编码器是否收敛, 包括: 计算所述训练后文本编码器的损失函数, 并根据 所述损失函数判断所述训练后文本编 码器是否收敛; 其中, 所述计算所述训练后文本编码器的损失函数, 包括: 对于每个所述训练文本对, 根据该训练文本对中的原始训练文本对应的第 一输出结果 与该训练文本对中的目标训练文本对应的第二输出结果之 间的差异度, 确定每个所述训练 文本对所对应的子损失函数; 根据所有所述训练文本对所对应的子损失函数, 计算所述训练后文本编码器的损失函 数; 其中, 对于每个所述训练文本对, 该训练文本对中的原始训练文本对应的第一输出结 果包括将该训练文本对中的原始训练文本输入至所述原始文本编码器之后得到的输出结 果再输入至预先确定出的全连接层之后得到的输出结果, 该训练文本对中的目标训练文本 对应的第二输出结果包括该训练文本对中的目标训练文本输入至所述原始文本编码器之 后得到的输出 结果。 6.根据权利要求4所述的基于文本模态自监督的文本去重方法, 其特征在于, 所述将所 有所述训练文本对分别输入预先确定出的原始文本编码器以对所述原始文本编码器进行 训练得到训练后文本编码器, 包括: 对于每个所述训练文本对, 分别对该训练文本对中的原始训练文本及该训练文本对中 的目标训练文本执行分词操作, 得到该训练文本对中的原始训练文本对应的第一分词结果 以及该训练文本对中的目标训练文本对应的第二分词结果; 对于每个所述训练文本对, 根据预先确定出的词典生成所述第 一分词结果对应的索引 序列以及所述第二分词结果对应的索引序列; 对于每个所述训练文本对, 将所述第 一分词结果对应的索引序列以及所述第 二分词结 果对应的索引序列成对输入至确定出的原 始文本编码器进行训练得到训练后文本编码器。 7.根据权利要求4所述的基于文本模态自监督的文本去重方法, 其特征在于, 所述数据权 利 要 求 书 2/3 页 3 CN 115357690 A 3

PDF文档 专利 基于文本模态自监督的文本去重方法及装置

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于文本模态自监督的文本去重方法及装置 第 1 页 专利 基于文本模态自监督的文本去重方法及装置 第 2 页 专利 基于文本模态自监督的文本去重方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:40:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。