全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210826432.2 (22)申请日 2022.07.14 (66)本国优先权数据 202210332296.1 202 2.03.31 CN (71)申请人 启明信息技 术股份有限公司 地址 130117 吉林省长 春市长春净月高新 技术产业开发区百合 街1009号 (72)发明人 王循 杜阿卫  (74)专利代理 机构 成都金英专利代理事务所 (普通合伙) 51218 专利代理师 詹权松 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/27(2019.01) G06F 16/951(2019.01) (54)发明名称 一种汽车舆情快速处 理方法 (57)摘要 本发明公开了一种汽 车舆情快速处理方法, 包括以下具体步骤: 通过爬虫程序爬取网络舆情 文章和基础信息, 发送到Kafka模块; 启动与 Kafka分区相同数量的ETL处理程序, ETL处理程 序实时并发读取Kafka的每一条数据; 通过对数 据进行预处理, 并对文章进行分类处理; 在 StarRocks中新建和Kafka中对应 的定时加载模 块, 定时从Kafka中加载数据并进行推送。 本发明 通过实时技术架构, 大大节省数据处理时间, 可 以将舆情的预警时间从1小时缩短到5秒内, 将数 据展现时间从 1小时缩短到1分钟。 权利要求书1页 说明书6页 附图1页 CN 115269698 A 2022.11.01 CN 115269698 A 1.一种汽车舆情快速处 理方法, 其特 征在于, 包括以下 具体步骤: 通过爬虫程序爬取网络 舆情文章和基础信息, 发送到分布式流平台模块; 启动与分布式流平台分区相同数量的数据抽取转换加载处理程序, 数据抽取转换加载 处理程序实时并发读取分布式流平台的每一条 数据; 通过对数据进行 预处理, 并对文章进行分类处 理; 在大规模并行处理数据库产品StarRocks中新建和分布式流平台中对应的定时加载模 块, 定时从分布式流平台 中加载数据并进行推送。 2.根据权利要求1所述的一种 汽车舆情快速处理方法, 其特征在于, 所述基础信 息包括 文章标题、 文章内容、 发布时间、 爬取时间、 文章连接和文章获取渠道。 3.根据权利要求1所述的一种 汽车舆情快速处理方法, 其特征在于, 所述对数据进行预 处理具体步骤为: 加载Json格式数据; 去掉文章标题中的空格和符号, 形成纯净字符; 格式 化爬取时间; 处 理异常数据; 判断是否是当天文章。 4.根据权利要求1所述的一种 汽车舆情快速处理方法, 其特征在于, 所述对文章进行分 类处理具体步骤为: 判断是否是当天文章: 若不是当天文章, 而是以往已删除的文章, 调用删除文章处 理函数; 若不是当天文章, 而是以往未爬取到的新文章, 调用新文章处 理函数; 若不是当天文章, 而是以往已经入库过的文章, 调用老文章处 理函数; 若是当天文章, 并且是已删除的当天文章, 调用删除文章处 理函数; 若是当天文章, 并且是已经入库过的当天文章, 调用老文章处 理函数; 若是当天新文章, 则调用AI服务的情 感分析服务, 返回文章情 感倾向, 根据返回结果进 行判断。 5.根据权利要求4所述的一种 汽车舆情快速处理方法, 其特征在于, 所述根据返回结果 进行判断具体方法为: 如果文章情感为负向, 调用预警处理函数; 如果文字情感为其他, 调 用新文章处 理函数。 6.根据权利要求4所述的一种 汽车舆情快速处理方法, 其特征在于, 所述删除文章处理 函数逻辑具体为: 保存文章基础信息和全文到 搜索引擎产品ElasticSearc h删除表。 7.根据权利要求4所述的一种 汽车舆情快速处理方法, 其特征在于, 所述新文章处理函 数逻辑具体为: 调用A I情感服务 获取文章情感; 调用A I标签服务 获取文章标签; 保存文章基 础信息、 关联信息和文章声量信息到分布式流平台; 保存文章全文信息到搜索引擎产品 ElasticSearc h中; 保存文章声量信息 到内存数据结构存 储系统。 8.根据权利要求4所述的一种 汽车舆情快速处理方法, 其特征在于, 所述老文章处理函 数逻辑具体为: 读取内存数据结构存储系统中的点击量信息计算增量; 保存声量增 量信息 到分布式流平台。 9.根据权利要求5所述的一种 汽车舆情快速处理方法, 其特征在于, 所述预警处理函数 逻辑具体为: 生 成预警信息; 从缓存获取文章需要 预警的钉钉群信息; 对每个需要 预警的钉 钉群, 发送预警消息 。权 利 要 求 书 1/1 页 2 CN 115269698 A 2一种汽车 舆情快速 处理方法 技术领域 [0001]本发明涉及舆情数据处 理技术领域, 尤其涉及一种汽车舆情快速处 理方法。 背景技术 [0002]ETL, 是英文  Extract‑Transform ‑Load 的缩写, 用来描述将数据从来源端经过抽 取 (extract) 、 转换 (transform) 、 加载 (loa d) 至目的端的过程。 ETL一词较常用在数据仓库, 但其对象并不限于数据仓库。 [0003]当前的ETL处理的技术主要 分为定时批量ETL处理和实时分布式计算框架, 定时批 量ETL处理技术比较成熟, 大部分BI项目的数据处理都会涉及到定时ETL处理。 实时分布式 计算框架是后发展起来的ETL技术, 其相比定时ETL方案, 其效率有数量级 上的飞跃。 当前比 较主流的实时分布式计算 技术框架有Spark  Streaming、 Flink等。 [0004]舆情数据的特点是每一条数据都需要进行甄别, 打上汽车行业相关标签, 并且需 要确定数据的情感倾向, 而且舆情数据质量参差不齐, 需要进行大量异常处理。 在ETL处理 过程中, 并不需要在处理阶段进 行大量计算和汇总。 针对这样的数据特点, 比较适合做海量 数据计算和汇总的实时分布式计算技术框架不太适用, 所以当前一般用定时批量ETL处理 技术进行处 理。 [0005]如图2所示, 现有技术方案的流程是, 从网络获取到的文章数据, 放入数据库中, 调 度平台会定时调用AI程序, AI程序读取数据库中指定时间段的原始文章数据集合, 对数据 打标签和判断情感, 把处理结果存回数据库, 调度平台再调用ETL工具Kettle, Kettle批量 对上一步的结果处理异常数据和规范格式, 把清洗结果和历史原始数据存回数据库供前台 调用。 [0006]当前方案处理舆情数据流 程, 包括以下步骤: S1, 首先做基础数据的收集和整理: S1.1, 数据收集阶段, 数据类型包括但不限于新闻文章、 论坛贴吧、 视频视频等本 品历史数据。 [0007]S1.2, 调度平台定时调用爬虫程序, 从网络 爬取公开互联网数据。 [0008]S1.3, 数据 存储, 爬取到的文章标题、 文章内容、 发布时间、 爬取时间、 文章连接、 所 属渠道等, 存 储在数据库的抓取文章表中。 [0009]S2, 收集来的数据, 定时调用AI 程序进行处 理: S2.1, 调度平台定时调度AI 程序, 批量读取抓取文章表中的新文章。 [0010]S2.1, 对每条 数据去除噪声, 规范符号。 [0011]S2.2, 对每条 数据进行英文与标点格式化。 [0012]S2.3, 对每条 数据打上分类标签。 [0013]S2.4, 对每条 数据打上 热词标签。 [0014]S2.5, 对每条 数据打上业 务类型标签。 [0015]S2.6, 对每条 数据打上情感标签。说 明 书 1/6 页 3 CN 115269698 A 3

PDF文档 专利 一种汽车舆情快速处理方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种汽车舆情快速处理方法 第 1 页 专利 一种汽车舆情快速处理方法 第 2 页 专利 一种汽车舆情快速处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:02:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。