全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210325028.7 (22)申请日 2022.03.30 (71)申请人 上海东普信息科技有限公司 地址 201707 上海市青浦区外 青松公路 5045号508室U区4 4号 (72)发明人 张浩 杨周龙 聂英春 康元佳  刘镕硕 高书增  (74)专利代理 机构 上海汉声知识产权代理有限 公司 3123 6 专利代理师 胡晶 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/28(2019.01) G06F 16/25(2019.01) G06F 16/215(2019.01)G06F 9/48(2006.01) G06F 11/30(2006.01) G06F 9/445(2018.01) G06F 16/2455(2019.01) (54)发明名称 基于Doris的实时数仓设计方法、 装置、 设备 及存储介质 (57)摘要 本发明具体公开基于Doris的实时数仓设计 方法、 装置、 设备及存储介质。 它包括: 将业务实 时数据导入到 Kakfa队列, 并放入适配的topic标 签中, 提供消费所述topic标签中数据的至少一 消费任务, 设置适配 的Routine  Load任务监控; 所述Routine  Load任务监控实时读取用于表明 所述topic标签中消费当前数据所在位置信息的 偏移量; 若所述偏移量在预设时间内未增长, 则 重新启动所述Routine  Load任务监控, 从所述偏 移量继续执行所述消费任务; 将所述消费任务执 行后的Stream  Load数据流导入到Doris中。 本发 明还进一步包括对需要二次业务逻辑处理的实 时数据、 离线数据、 固定 数据等提供导入Doris的 技术手段, 对于数仓建设在提高业务支持效率、 降低维护成本上都具有非常重大的意 义。 权利要求书2页 说明书11页 附图4页 CN 114942916 A 2022.08.26 CN 114942916 A 1.一种基于Doris的实时数仓设计方法, 其特 征在于, 包括: 将业务实时数据 导入到Kakfa队列, 并放入适配的topic标签中, 提供消费所述topic标 签中数据的至少一消费任务, 设置适配的Routi ne Load任务监控; 所述Routine  Load任务监控实时读取用于表明所述topic标签中消费当前数据所在位 置信息的偏移量; 若所述偏移量在预设时间内未增长, 则重新启动所述Routine  Load任务监控, 从所述 偏移量继续执 行所述消费任务; 将所述消费任务执 行后的St ream Load数据流 导入到Doris中。 2.如权利要求1所述的基于Doris的实时数仓设计方法, 其特征在于, 所述将所述消费 任务执行后的St ream Load数据进行导入到Doris中进一 步包括: 在实时计算集群Flink上创建一个所述Stream  Load数据流最终输出位置到所述Doris 中的sink: flink‑connector‑dorisdb; 所述Stream Load数据通过缓存并批量 直接由Ht tp导入至所述Doris中。 3.如权利要求1所述的基于Doris的实时数仓设计方法, 其特征在于, 将所述消费任务 执行后的St ream Load数据流 导入到Doris中之后还 包括: 找到需要二次业务逻辑处理的实时数据, 先对所述实时数据通过Flink进行所述二次 业务的逻辑处理, 再对所述逻辑处理后的数据进行缓存, 最后将缓存的所述数据由Stream   Load导入Doris。 4.如权利要求3所述的基于Doris的实时数仓设计方法, 其特征在于, 所述先对所述实 时数据通过 Flink进行所述二次业务的逻辑处 理, 其进一 步包括: 将一所述实时数据的二 次业务逻辑设置成一任务管理, 所述任务管理提交适配的任务 作业给JobMana ger, 所述JobMana ger负责所述作业的调度和资源分配, 所述JobManager将 所述作业分给对应的TaskManager, 所述TaskManager收到所述任务 作业后, 启动线程去执 行, 并向所述JobMana ger报告所述任务状态和自身运行状态; 当所述任务执行结束后, 所述JobManager将收到通知, 并将二次业务逻辑处理后的数 据后发送给对应的所述任务管理。 5.如权利 要求3或4所述的基于Doris的实时数仓设计方法, 其特征在于, 所述先对所述 实时数据通过Flink进 行所述二次业务的逻辑处理, 其中的所述二次业务逻辑处理, 其进一 步包括: 先从ods日志主题消费数据, 然后通过用户行为, 将所述数据中的行为数据分为3种: 页 面日志, 曝光日志, 启动日志; 通过定义了一个Flink的状态变量为时间, 用于过滤新用户的所述数据, 判断是否是新 用户, 如果是第一次来, 对应的状态是 空, 将现在的时间更新至所述状态, 否则状态不为空, 则所述当前用户修改为老用户; 对进行过滤处理后的所述数据进行分流处理, 所述启动日志和所述曝光数据写入侧输 出流, 所述页面数据写入主流并通过json获取对应的值, 在start中写入启动所述测输出 流, 去除所述启动日志全部为所述页面日志, 将所述页面日志写入到主流, 再将所述曝光日 志写入到曝光侧输出流。 6.如权利 要求1或3所述的基于Doris的实时数仓设计方法, 其特征在于, 将所述消费任权 利 要 求 书 1/2 页 2 CN 114942916 A 2务执行后的St ream Load数据流 导入到Doris中之后还 包括: 在离线业 务场景中, 利用Bro ker Load将所述离线业 务数据从HDFS导入所述Doris; 通过SQL方式, 使用DolphinScheduler配置调度任务, 批 处理完成所述离线业务数据的 处理, 后汇总到一个总表中。 7.如权利 要求1或3所述的基于Doris的实时数仓设计方法, 其特征在于, 将所述消费任 务执行后的St ream Load数据流 导入到Doris中之后还 包括: 在实际业务场景中相对固定的数据, 直接对接数据服务大厅, 由所述数据服务大厅与 Power BI工具和前端报表对接 。 8.一种基于Doris的实时数仓设计装置, 其特 征在于, 包括: Routine Load任务监控设置模块: 用于将业务实时数据导入到Kakfa队列, 并放入适配 的topic标签中, 后提供消费所述topic标签中数据的至少一消费任务, 设置适配的Routine   Load任务监控; Routine Load任务监控处理模块: 用于所述Routine  Load任务监控 实时读取用于表明 所述topic标签中消费当前 数据所在位置信息的偏移量; Routine Load任务监控启动模块: 用于若所述偏移量在预设时间内未增长, 则重新启 动所述Routi ne Load任务监控, 从所述偏移量继续执 行所述消费任务; 导入模块: 用于将所述消费任务执 行后的St ream Load数据流 导入到Doris中。 9.一种计算机设备, 其特 征在于, 包括: 存储器, 所述存 储器用于存 储处理程序; 处理器, 所述处理器执行所述处理程序时实现如权利要求1至权利要求7中任意一项所 述的基于Doris的实时数仓设计方法。 10.一种可读存储介质, 其特征在于, 所述可读存储介质上存储有处理程序, 所述处理 程序被处理器执行时实现如权利要求1至权利要求7中任意一项 所述的基于Dor is的实时数 仓设计方法方法。权 利 要 求 书 2/2 页 3 CN 114942916 A 3

.PDF文档 专利 基于Doris的实时数仓设计方法、装置、设备及存储介质

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Doris的实时数仓设计方法、装置、设备及存储介质 第 1 页 专利 基于Doris的实时数仓设计方法、装置、设备及存储介质 第 2 页 专利 基于Doris的实时数仓设计方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:03:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。