(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210782809.9
(22)申请日 2022.07.05
(65)同一申请的已公布的文献号
申请公布号 CN 114840599 A
(43)申请公布日 2022.08.02
(73)专利权人 杭州广立 微电子股份有限公司
地址 310013 浙江省杭州市西湖区西斗门
路3号天堂软件园A幢15楼F1座
(72)发明人 倪旭池
(74)专利代理 机构 杭州华进联浙知识产权代理
有限公司 3 3250
专利代理师 周长梅
(51)Int.Cl.
G06F 16/25(2019.01)
G06F 11/14(2006.01)(56)对比文件
CN 110109778 A,2019.08.09
CN 113312191 A,2021.08.27
CN 1021640 50 A,2011.08.24
US 201931794 4 A1,2019.10.17
谷克宏, 等.基 于多核集群的MPI+OpenMP混
合并行编程模型研究. 《甘肃科技》 .2018,第34卷
(第19期),
审查员 凡保磊
(54)发明名称
半导体源数据解析方法、 ETL系统、 计算机设
备和产品
(57)摘要
本申请涉及一种半导体源数据解析方法、
ETL系统、 计算机设备和产品。 所述方法包括: 获
取半导体源 数据和所述半导体源 数据的数据量,
根据所述半导体源数据的数据类型, 从多种不同
类型的数据解析单元中确定与所述数据类型相
匹配的目标数据解析单元, 其中, 所述多种不同
类型的数据解析单元用于解析不同数据类型的
半导体源数据, 根据所述半导体源 数据的数据量
确定所述目标数据解析单元的并发数量, 利用具
有所述并发数量的所述目标数据解析单元并发
解析所述半导体源数据。 采用本方法能够半导体
源数据解析的效率。
权利要求书3页 说明书15页 附图3页
CN 114840599 B
2022.11.01
CN 114840599 B
1.一种半导体源数据解析 方法, 其特 征在于, 包括:
获取半导体源数据和所述半导体源数据的数据量;
根据所述半导体源数据的数据类型, 从多种不同类型的数据解析单元中确定与所述数
据类型相匹配的目标数据解析单元, 其中, 所述多种不同类型的数据解析单元用于解析不
同数据类型的半导体源数据;
根据所述半导体源数据的数据量确定所述目标 数据解析 单元的并发数量;
利用具有所述并发数量的所述目标 数据解析 单元并发解析 所述半导体源数据;
生成易读的文件格式的中间备份数据; 其中, 所述中间备份数据为所述半导体源数据
中各个文件解析后的数据;
通过数据传输工具自动判断所述中间备份数据对应的文件类型, 根据 所述文件类型将
所述中间备份数据导入至数据库对应的表中, 所述中间备份数据导入至数据库的过程中,
数据传输工具将判断所述中间备份数据中是否存在脏数据信息并输出报警消息, 根据报警
消息查看对应的中间备份数据;
中间备份数据还关联有数据扩展端, 数据扩展端外发中间备份数据前, 需调用数据传
输工具先进行中间备份数据是否存在脏数据信息的判断;
所述利用具有所述并发数量的所述目标数据解析单元并发解析所述半导体源数据包
括:
获取所述半导体源数据中每 个文件的数值型文件属性;
确定每个所述文件的数值型文件属性的属性 值与所述并发数量相除得到的余数;
根据每个所述文件对应的余数选择所述目标数据解析单元, 并利用被选择的目标数据
解析单元解析所述文件;
所述半导体源数据中每 个文件对应多种数值型文件属性;
所述获取 所述半导体源数据中每 个文件的数值型文件属性, 之后还 包括:
确定所述多种数值型文件属性之间的优先级排序;
根据所述多种数值型文件属性之间的优先级排序确定每个所述文件对应的目标数值
型文件属性;
确定每个所述文件的目标 数值型文件属性的属性 值与所述并发数量相除得到的余数;
根据每个所述文件对应的余数选择所述目标数据解析单元, 并利用被选择的目标数据
解析单元解析所述文件;
所述根据所述多种数值型文件属性之间的优先级排序确定每个所述文件对应的目标
数值型文件属性, 包括:
根据所述多种数值型文件属性之间的优先级排序确定候选数值型文件属性; 其中, 所
述候选数值型文件属性 为优先级最高的数值型文件属性;
确定每个所述文件的候选数值型文件属性的属性 值是否相同;
如果每个所述文件的候选数值型文件属性的属性值相同, 将所述候选数值型文件属性
的下一级别数值型文件属性作为目标 数值型文件属性。
2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
数据解析 单元在解析半导体源数据前, 对 源数据进行一级备份;
通过所述数据传输工具将所述中间备份数据导入至数据库的过程中, 判断所述中间备权 利 要 求 书 1/3 页
2
CN 114840599 B
2份数据中是否存在脏数据信息;
如果所属中间备份数据中未存在脏数据信 息, 则删除中间备份数据中对应已完成传输
的数据;
如果所述中间备份数据中存在脏数据信息, 记录所述脏数据信息并进行报警, 再根据
脏数据信息查看对应的中间备份数据, 排查是中间备份数据本身问题还是数据传输工具出
错问题;
当属于中间备份数据本身问题时, 则查看一级备份的数据, 确定是半导体源数据本身
的问题还是解析 出错的问题;
当属于数据传输工具出错问题时, 则通过目标数据解析单元调用一级备份数据重新进
行解析和数据传输 。
3.根据权利要求1所述的方法, 其特征在于, 所述数据库分为主数据库和从数据库, 所
述方法还 包括:
在对所述半导体源数据进行解析时, 在所述主数据库中生成并存储所述半导体源数据
中各个文件 对应的唯一标识信息;
获取中间备份数据, 将所述半导体源数据中各个文件对应的唯一标识信 息写入至对应
的中间备份数据中; 其中, 所述中间备份数据为所述半导体源数据中各个文件解析后的数
据;
从多个从数据库中确定与 所述半导体源数据的数据类型相匹配的目标从数据库, 并将
所述中间备份数据存 储至对应的所述目标从数据库中。
4.根据权利要求1所述的方法, 其特征在于, 通过数据传输工具自动判断所述中间备份
数据对应的文件类型, 根据所述文件类型将所述中间备份数据导入至数据库对应的表中,
还包括:
获取中间备份数据; 其中, 所述中间备份数据为所述半导体源数据中各个文件解析后
的数据;
获取所述中间备份数据的数据大小、 当前支持的网络带宽、 数据解析单元拉取半导体
源数据所需带宽、 数据库 与外部进行数据交互所需带宽, 确定数据传输 速度;
根据所述数据传输 速度, 将所述中间备份数据导入至数据库对应的表中。
5.一种ETL系统, 其特征在于, 包括至少一个测试机台、 独立于业务端的数据解析模块、
数据交互模块和数据存储模块, 所述数据解析模块分别与所述测试机台和所述数据交互模
块连接, 所述数据存储模块与所述数据 交互模块连接; 所述数据解析模块包括多种不同类
型的数据解析单元, 所述多种不同类型的数据解析单元用于解析不同数据类型的半导体源
数据;
所述测试机台用于获取半导体源数据;
所述数据解析模块用于获取半导体源数据和所述半导体源数据的数据量, 根据 所述半
导体源数据的数据类型, 从多种不同类型的数据解析单元中确定与所述数据类型相匹配的
目标数据解析单元, 其中, 所述多种不同类型 的数据解析单元用于解析不同数据类型 的半
导体源数据, 根据所述半导体源数据的数据量确定所述 目标数据解析单元 的并发数量, 利
用具有所述并发数量的所述目标 数据解析 单元并发解析 所述半导体源数据;
所述数据交 互模块用于将所述半导体源数据解析后的数据存 储至所述数据存 储模块;权 利 要 求 书 2/3 页
3
CN 114840599 B
3
专利 半导体源数据解析方法、ETL系统、计算机设备和产品
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 01:02:12上传分享