全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210927603.0 (22)申请日 2022.08.03 (71)申请人 中科雨辰科技有限公司 地址 100093 北京市海淀区清琴麓 苑170号 楼2层 (72)发明人 刘羽 张正义 林方 李一  (74)专利代理 机构 北京锺维联合知识产权代理 有限公司 1 1579 专利代理师 安娜 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称 一种获取实体训练集的数据处 理系统 (57)摘要 本发明提供了一种获取实体训练集的数据 处理系统, 包括: 数据库, 处理器和存储有计算机 程序的存储器, 数据库包括: 预设的实体类型集; 根据第一实体向量列表中第一实体向量的数量, 选择不同的处理方法以获取到训练样本列表, 而 不是同一采用相同的处理方式对第一实体向量 进行处理, 因此, 提高了训练样本列表的准确性, 并且本发明在第一实体向量列表中第一实体数 量大于预设实体数量阈值时, 采用聚类方式对第 一实体向量进行处理, 相比于计算每一个第一实 体向量距离的处 理方式, 节省了时间资源。 权利要求书2页 说明书8页 附图2页 CN 114996413 A 2022.09.02 CN 114996413 A 1.一种获取实体训练集的数据处理系统, 其特征在于, 所述系统包括: 数据库, 处理器 和存储有计算机程序的存储器, 其中, 所述数据库包括: 预设的实体类型集S={S1, S2, ..., Si, ..., Sm}, Si为第i个实体 类型列表, i的取值 为1到m, m为实体 类型数量; 当所述计算机程序被处 理执行时, 实现以下步骤: S101、 从S中获取Si对应的第一实体向量集Ti={Ti 1, Ti 2, ..., Ti r, ..., Ti s}, Ti r= (Ti r1, Ti r2, ..., Ti rg, ..., Ti rzr) , Ti rg为Si对应的第r个第一实体向量集中 的第g个第一实体向量, g 的取值为1到zr, zr为Si对应的第r个第一实体向量集中第一实体向量 的数量, r的取值为1 到s, s为Si对应的第一实体向量 集的数量; S103、 当zr=K时, 对Ti r进行处理, 获取相似度D0, K为预设实体数量阈值; S105、 当D0>d时, 将Ti r存储至实体训练集 L中, d为预设相似度阈值; S107、 当zr>K时, 对Ti r进行处理, 获取第二实体向量 集B并将B存 储至L中; 其中, S10 3中对Ti r进行处理的方式与S107中对Ti r进行处理的方式不 一致。 2.根据权利要求1所述的系统, 其特征在于, 在S101中, Ti rg= (ɑg、 βg、 λg、 ηg、 μg) , 其中,ɑg 为第g个第 一实体向量的本体, βg为第g个第 一向量实体对应的第 一关联关系, λg为第g个第 一关联关系对 应的第一关联实体, ηg为第g个第一关联实体对 应的第二关联关系, μg为第g个 第二关联关系对应的第二关联实体。 3.根据权利要求2所述的系统, 其特征在于, 所述第 一关联实体为以第 一实体为起始点 实体进行一跳后的关联实体, 所述第一关联关系为第一 实体与第一关联实体之 间的关联关 系, 所述第二关联关系为第一实体下位一跳关联实体对应的关联关系, 所述第二关联实体 为以第一实体为 起始点实体进行两 跳后的关联实体。 4.根据权利要求1所述的系统, 其特 征在于, 在S10 3中, K=2。 5.根据权利要求1所述的系统, 其特 征在于, 在S10 3中通过如下步骤获取D0: S1031、 根据Ti r, 获取Ti r对应的目标实体向量列表Fr= (Fr1, Fr2, ..., Frg, ..., Frzr) , 其中, Frg= (Fɑ rg, Fβ rg, Fλ rg, Fη rg, Fμ rg) , 其中, Fɑ rg=wɑ×ɑg, wɑ为ɑg对应的权重值, Fβ rg=wβ×βg, wβ为βg对 应的权重值, Fλ rg=wλ×λg, wλ为λg对应的权重值, Fɛ rg=wɛ×ηg, wɛ为ηg对应的权重值, Fμ rg=wμ× μg, wμ为 μg对应的权 重值; S1033、 获取Fr目标实体向量之间的相似度D0, D0符合如下 条件: , 其中, Fra为在Fr中除Frg外的任一目标实体向量。 6.根据权利要求5所述的系统, 其特 征在于, wβ=wλ>wɑ>wη=wμ。 7.根据权利要求1所述的系统, 其特 征在于, 在S107中包括如下步骤获取B: S1071、 根据Ti rg, 获取Ti rg对应的第一中间实体向量T2 rg, 其中, T2 rg的向量维度为2; S1072、 基于T2 rg, 获取目标区域面积C0, 其中, C0是以T2 rg为中心点且r为半径的圆形区 域; S1073、 获取在C0中的T2 r中点到T2 rg的向量距离d0, 其中, d0符合如下 条件:权 利 要 求 书 1/2 页 2 CN 114996413 A 2, 其中, T2 ra为在C0中除T2 rg外的中间实体向量, t= zr‑1; S1074、 遍历 T2 r, 获取第一簇类向量集合Z1, 其中, Z1包括若干个第一簇类向量, 第一簇类 向量为满足与Ti rg之间的向量距离小于d0的实体向量; S1075、 根据T2 rg, 获取第二中间实体向量T02 rg且将T02 rg作为第二簇类向量的中心点, 其 中, T02 rg为对T2 rg移动d0的实体向量; S1076、 重复S1072至S1075, 获取最终簇类向量列表Z={Z1, Z2, ..., Zj, ..., Znr},Zj={Zj1, Zj2, ..., Zjh, ..., Zjqj}, Zph为第p簇类中的第h个中间实体向量, h的取值为1到qj, qj为第j个 最终簇类向量列表中最终簇类向量的数量, j的取值为1到nr, nr为最终簇类向量列表的数 量; S1077、 获取Zjh对应的第二实体向量, 构建第二实体向量列表B并将B存储至L中, B={Br 1, Br 2, ..., Br j, ..., Br nr}, Br j= (Br j1, Br j2, ..., Br jh, ..., Br jqj) , Br jh为第j个第二实体向量列表 中的第h个第二实体向量。 8.根据权利要求7 所述的系统, 其特 征在于, 在S1076中, 。权 利 要 求 书 2/2 页 3 CN 114996413 A 3

.PDF文档 专利 一种获取实体训练集的数据处理系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种获取实体训练集的数据处理系统 第 1 页 专利 一种获取实体训练集的数据处理系统 第 2 页 专利 一种获取实体训练集的数据处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:40:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。