全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210340207.8 (22)申请日 2022.03.31 (71)申请人 成都数联云算科技有限公司 地址 610000 四川省成 都市高新区吉泰五 路88号3栋5层8号、 9号 (72)发明人 不公告发明人   (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 王志 (51)Int.Cl. G06F 16/23(2019.01) G06F 16/2455(2019.01) (54)发明名称 一种数据标注方法、 装置、 设备及存 储介质 (57)摘要 本申请公开了一种数据标注方法、 装置、 设 备及存储介质, 将待 标注数据库以页为单位进行 数据标注, 先进行自动标注, 再用人工标注对自 动标注的结果进行校正, 自动标注的算法会学习 人工标注的校正结果, 提升后续自动校正的精准 度, 进而减少失误提升效率; 同时, 人工标注的过 程中可能出现人为失误导致需要进行撤销、 前进 动作, 通过对数据页设置版本号, 控制标注过程 中的前进、 撤销动作, 减少对待标注数据集的操 作, 提升响应速度; 同时, 数据标注过程在高速缓 存中进行, 仅在单页数据标注完成后更新数据 库, 减少了对磁盘的读取操作, 提升接口响应效 率和交互体验。 权利要求书2页 说明书8页 附图2页 CN 114676151 A 2022.06.28 CN 114676151 A 1.一种数据标注方法, 其特 征在于, 包括以下步骤: 将数据库中的待标注数据集保存在高速缓存中; 其中, 所述待标注数据集共有m页待标 注数据, m为 正整数; 读取高速缓存中的第n页待标注数据, 并设置版本号 为n0; 其中, n的取值 为1~m; 对所述第n页待标注数据进行自动标注, 并设置版本号 为n1, 以获得初步标注页; 对所述初步标注页进行人工标注校正, 并设置版本号为n2, 以获得完成标注的第n页数 据。 2.如权利要求1所述的一种数据标注方法, 其特征在于, 所述对所述初步标注页进行人 工标注校正, 并设置版本号 为n2, 以获得完成标注的第n页数据的步骤之后, 还 包括: 接收撤销操作请求; 基于所述撤销操作请求, 读取 上一版本号的数据 页, 并更新版本号 为所述上一版本号。 3.如权利要求2所述的一种数据标注方法, 其特征在于, 所述基于所述撤销操作请求, 读取上一版本号的数据 页, 并更新版本号 为所述上一版本号的步骤之后, 还 包括: 接收前进操作请求; 基于所述前进操作请求, 读取 下一版本号的数据 页, 并更新版本号 为所述下一版本号。 4.如权利要求1所述的一种数据标注方法, 其特征在于, 所述对所述初步标注页进行人 工标注校正, 并设置版本号 为n2, 以获得完成标注的第n页数据的步骤之后, 还 包括: 接收操作指令; 基于所述操作指令, 对所述高速缓存中的所述待标注数据集进行操作。 5.如权利要求4所述的一种数据标注方法, 其特征在于, 所述操作指令为保存操作指 令; 所述基于所述操作指令, 对所述高速缓存中的所述待标注数据集进行操作的步骤, 包 括: 基于所述保存操作指令, 将所述完成标注的第 n页数据存入所述高速缓存, 以更新所述 高速缓存中的待标注数据集; 基于更新后的所述高速缓存中的待标注数据集, 更新所述数据库中的所述待标注数据 集。 6.如权利要求4所述的一种数据标注方法, 其特征在于, 所述操作指令为换页操作指 令; 所述基于所述操作指令, 对所述高速缓存中的所述待标注数据集进行操作的步骤, 包 括: 基于所述换页操作指令, 将所述完成标注的第 n页数据存入所述高速缓存, 以更新所述 高速缓存中的待标注数据集; 基于更新后的所述高速缓存中的待标注数据集, 更新所述数据库中的所述待标注数据 库; 读取所述高速缓存中的第n+1页待标注数据。 7.如权利要求1所述的一种数据标注方法, 其特征在于, 所述第n页数据包括源数据标 签; 所述对所述初步标注页进行人工标注校正, 并设置版本号为n2, 获得完成标注的第n页 数据的步骤之后, 还 包括: 基于所述完成标注 的第n页数据以及所述源数据标签, 更新所述高速缓存中的待标注 数据集, 获得 更新数据集; 其中, 所述更新数据集中包括所述源数据标签;权 利 要 求 书 1/2 页 2 CN 114676151 A 2将所述更新数据集中的所述源数据标签更改为目标 标签, 获得第n 合并数据集。 8.如权利要求1所述的一种数据标注方法, 其特征在于, 所述将数据库中的待标注数据 集保存在高速缓存中的步骤之前, 还 包括: 采集原始数据集, 并对所述原 始数据集进行 数据清洗, 获得 所述待标注数据集; 将所述待标注数据集保存至所述数据库中。 9.一种数据标注装置, 其特 征在于, 包括: 缓存模块, 用于将数据库中的待标注数据集保存在高速缓存中; 其中, 所述待标注数据 集共有m页待标注数据, m为 正整数; 读取模块, 用于读取高速缓存中的第n页待标注数据, 并设置 版本号为n0; 其中, n的取值 为1~m; 初步标注模 块, 用于对所述第n页待标注数据进行自动标注, 并设置 版本号为n1, 以获得 初步标注页; 校正模块, 对所述初步标注页进行人工标注校正, 并设置版本号为n2, 以获得完成标注 的第n页数据。 10.一种电子设备, 其特征在于, 该电子设备包括存储器和 处理器, 所述存储器中存储 有计算机程序, 所述处理器执行所述计算机程序, 实现如权利要求1 ‑8中任一项所述的方 法。 11.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 处理器执行所述计算机程序, 实现如权利要求1 ‑8中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114676151 A 3

PDF文档 专利 一种数据标注方法、装置、设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据标注方法、装置、设备及存储介质 第 1 页 专利 一种数据标注方法、装置、设备及存储介质 第 2 页 专利 一种数据标注方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:50:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。