全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211152096.4 (22)申请日 2022.09.21 (71)申请人 携程旅游信息技 术 (上海) 有限公司 地址 201203 上海市浦东 新区自由贸易试 验区碧波路518号3 02室 (72)发明人 王子奕 刘嘉伟 鞠剑勋 李健  (74)专利代理 机构 上海隆天律师事务所 31282 专利代理师 钟宗 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 16/387(2019.01) G06F 40/284(2020.01) G06F 40/295(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度学习的兴趣点分类方法、 系统、 设 备及存储介质 (57)摘要 本发明提供了基于深度学习的兴趣点分类 方法、 系统、 设备及存储介质, 该方法包括: 至少 基于预设兴趣点数据库的实体的名 称构建一前 缀树, 每个中间节点都只包含一个字符, 将别名 对应的兴趣点信息放至叶节点; 通过实体识别自 源文件中获得至少两实体字段和对应的候选兴 趣点编号, 分别 作为头实体和尾实体进行标识后 的源文件输入 经过训练的兴趣点类神经网络, 检 测是否满足父子关系阈值; 将满足父子关系阈值 的头实体、 尾实体 分别与源文件 所属的兴趣点的 名称进行匹配; 通过头实体和尾实体各自对应的 兴趣点的地理信息进行去重。 本发 明通过分利用 了旅游知识库的信息, 使用预训练模 型进行关系 分类, 实现兴趣点的归一化, 大大提升对兴趣点 的去重识别率。 权利要求书3页 说明书13页 附图4页 CN 115455204 A 2022.12.09 CN 115455204 A 1.一种基于深度学习的兴趣点分类方法, 其特 征在于, 包括以下步骤: 至少基于预设兴趣点数据库的实体的名称构建一前缀树, 每个中间节点都只包含一个 字符, 将别名对应的兴趣点信息放至叶节点; 通过实体识别自源文件中获得至少两实体字段和对应的候选兴趣点编号, 将对所述实 体字段中任意两个实体字段分别作为头实体和尾实体进行标识后的所述源文件输入经过 训练的兴趣点类神经网络, 检测是否满足父子关系阈值; 将满足所述父子关系阈值的所述头实体、 尾实体分别与源文件所属的所述兴趣点的名 称进行匹配; 当所述头实体和尾实体各自对应的所述兴趣点的地理信息满足预设阈值, 若是, 则去 重, 若否, 则根据所述头实体、 尾实体添加新的中间节点和叶节点。 2.如权利要求1所述的基于深度 学习的兴趣点分类方法, 其特征在于, 所述至少基于预 设兴趣点数据库的实体的名称构建一前缀树, 每个中间节点都只包含一个字符, 将别名对 应的兴趣点信息放至叶节点, 包括: 通过预设兴趣点数据库中所有实体的名称和别名字段构建一前缀 树; 将别名字符串逐条插入, 前缀树除根节点不包含字符、 叶节点包含终止符, 所述前缀树 的每个中间节点都只包 含一个字符; 将别名对应的兴趣点信息放至叶节点。 3.如权利要求2所述的基于深度 学习的兴趣点分类方法, 其特征在于, 所述将别名字符 串逐条插入, 前缀树除根节点不包含字符、 叶节 点包含终止符, 所述前缀树的每个中间节 点 都只包含一个字符, 还 包括: 从根节点出发到某一节点, 经过的字符连接起来表示该节点对应的字符串, 从根节点 到任一叶节点都闭合了一个实体别名。 4.如权利要求1所述的基于深度 学习的兴趣点分类方法, 其特征在于, 所述通过实体识 别自源文件中获得至少两实体字段和对应的候选兴趣点编号, 将对所述 实体字段中任意两 个实体字段分别作为头实体和尾实体进行标识后的所述源文件输入经过训练的兴趣点类 神经网络, 检测是否满足父子关系阈值, 包括: 通过实体识别自源文件中获得至少两实体字段和对应的候选兴趣点编号; 对所述实体字段中任意两个实体字段分别作为头实体和尾实体进行排列组合, 获得若 干元素组合分别作为待测兴趣点; 根据每种所述元素组合对所述源文件中对应的实体字段分别作为头实体和尾实体进 行标识, 分别获得识别文本; 将所述识别文本分别 输入经过训练 的兴趣点类神经网络, 检测每个所述识别文本是否 满足父子关系阈值。 5.如权利要求4所述的基于深度 学习的兴趣点分类方法, 其特征在于, 所述将所述识别 文本分别输入经过训练的兴趣点类神经网络, 检测每个所述识别文本是否满足父子 关系阈 值, 包括: 假设对所述识别文本进行分词、 并在头部添加定位字符后的字序列 为x1:T, 经BERT特征 提取得到隐向量序列如下: h1:T=BERT(x1:T);权 利 要 求 书 1/3 页 2 CN 115455204 A 2假设头实体和尾实体在输入序列中的片段位置为i到j和k到m, 将各自字级向量表示做 平均池化后分别接入两个全连接层输出头尾实体的表征为: 获得所述定位字符的位置对应的隐向量, 经 过一个全连接层处 理得到: hcls=FFNcls(h1), 其中, CLS为定位字符; 将所述定位字符的隐向量与头尾实体向量拼接, 然后传入一个全连接层和激活函数层 输出头实体为尾实体父级兴趣点的概 率模型: 所述概率模型在训练阶段使用二元交叉熵函数作为目标, 假设样本的真实标签为y, 则 损失为: 训练时采用AdamW算法批量优化loss直至该函数收敛, 并利用开发集数据选取合适的 阈值, 在推理阶段将模型输出概 率大于阈值的实体对预测为父子关系。 6.如权利要求1所述的基于深度 学习的兴趣点分类方法, 其特征在于, 所述将满足所述 父子关系阈值的所述头实体、 尾实体分别与源文件所属的所述兴趣点的名称进行匹配, 包 括: 判断源文本所属兴趣点的编号是否命中与所述头实体和/或尾实体召回的候选编号, 若是, 则所述头实体或尾实体匹配成功, 若否, 则对所述头实体和/或尾实体和源文本所属 兴趣点的名称各自去除省份、 城市、 行政区等前缀以及预设后缀字段后, 再次进行匹配。 7.如权利要求4所述的基于深度 学习的兴趣点分类方法, 其特征在于, 所述当所述头实 体和尾实体各自对应的所述兴趣点的地理信息满足预设阈值, 若是, 则去重, 若否, 则根据 所述头实体、 尾实体添加新的中间节点和叶节点, 包括: 获得所述头实体或尾实体中匹配成功的一个对应的第一 地理信息; 获得所述头实体或尾实体中未匹配成功的一个召回的至少一个候选兴趣点的第二地 理信息; 判断所述第一地理信息是否与一个第二地理信息之间的距离满足预设阈值, 若是, 则 对所述待测兴趣点进 行去重, 若否, 则根据所述待测兴趣点的头实体、 尾实体添加新的中间 节点和叶节点。 8.一种基于深度学习的兴趣点分类系统, 用于实现权利要求1所述的基于深度学习的 兴趣点分类方法, 其特 征在于, 包括: 前缀树生成模块, 至少基于预设兴趣点数据库的实体的名称构建一前缀树, 每个中间 节点都只包 含一个字符, 将别名对应的兴趣点信息放至叶节点; 关系检测模块, 通过实体识别自源文件中获得至少两实体字段和对应的候选兴趣点编 号, 将对所述实体字段中任意两个实体字段分别作为头实体和尾实体进 行标识后的所述源 文件输入经 过训练的兴趣点类神经网络, 检测是否满足父子关系阈值; 名称匹配模块, 将满足所述父子关系阈值的所述头实体、 尾实体分别与源文件所属的权 利 要 求 书 2/3 页 3 CN 115455204 A 3

.PDF文档 专利 基于深度学习的兴趣点分类方法、系统、设备及存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度学习的兴趣点分类方法、系统、设备及存储介质 第 1 页 专利 基于深度学习的兴趣点分类方法、系统、设备及存储介质 第 2 页 专利 基于深度学习的兴趣点分类方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:42:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。