全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211006785.4 (22)申请日 2022.08.22 (71)申请人 华云天下 (南京) 科技有限公司 地址 210000 江苏省南京市麒 麟科技创新 园创研路266号人工智能产业园7号楼 层1001室 (72)发明人 吴钟健 乔素林 唐雪 蔡华  先树森  (74)专利代理 机构 北京市鼎立 东审知识产权代 理有限公司 1 1751 专利代理师 朱慧娟 刘爽 (51)Int.Cl. G06F 16/953(2019.01) G06F 16/25(2019.01) G06F 16/35(2019.01)G06F 40/216(2020.01) G06F 40/284(2020.01) (54)发明名称 文章热度分析方法、 装置、 数据处理架构和 分析系统 (57)摘要 本申请涉及一种文章热度分析方法、 装置、 数据处理架构和分析系统, 基于本申请的实施, 本申请基于检索维度可设置, 关联性可传导的文 章热度分析方法, 个性化自动收集本行业及关联 领域的网站新闻及纸质刊物、 数字格式媒体文章 信息, 拾取新鲜热点、 分析趋势动态, 为各型企业 的行业体系信息分析及内外联企宣服务相关办 公室人员提供数据驱动的智库研究报告, 实现千 行千面的热点分析, 新事件新闻汇编功能, 为行 业情报收集和精准约稿提供数据智慧型支撑服 务。 权利要求书2页 说明书12页 附图2页 CN 115455269 A 2022.12.09 CN 115455269 A 1.一种文章热度分析 方法, 其特 征在于, 包括如下步骤: 通过数据采集器, 采集并提取在线 文章数据源; 对所提取的文章数据源进行格式转换并进行 预处理, 得到预处 理数据源; 利用分析控制器中的算子模组, 对所述预处理数据源按照预设分析算法进行热度分 析, 得到每篇文章的热度值 排行信息 。 2.根据权利要求1所述的文章热度分析方法, 其特征在于, 所述对所提出的文章数据源 进行格式转换, 包括: 预设标准 化raw转换格式; 基于预设的所述标准化raw转换格 式, 对所提取的文章数据源进行格 式转换, 获得标准 化转换的do ne文件; 检测所述do ne文件是否标准 化转换成功: 是则输出 所述done文件; 否则再次进入格式转换步骤。 3.根据权利要求1所述的文章热度分析方法, 其特征在于, 所述利用分析控制器中的算 子模组, 对所述预处理数据源按照预设分析算法进行热度分析, 得到每篇文章的热度值排 行信息, 包括: 获取所述预处 理数据源; 利用分析控制器中所配置的算子模组, 对所述预处理数据源执行词级维度分析, 分别 核算出基本热词和新词的热度信息; 利用变化 率算子, 调整所述基本热词和新词的热度排行, 并输出对应的热度值。 4.根据权利要求3所述的文章热度分析方法, 其特征在于, 所述利用分析控制器中的算 子模组, 对所述预处理数据源按照预设分析算法进行热度分析, 得到每篇文章的热度值排 行信息, 还 包括: 采集所述基本热词和新词的热度值; 采用统计分析方法完成所采集到的文章的热度值计算, 进行段落文章分析, 核算出文 章的实时热度排列信息; 热度值计算公式如下: 其中, lev参数为文章等级权重; A为展现度算子, 由访问量数值指数引用量计算构成; k 和j分别表示文章内包含的基本热词和新词的下标; loc为位置权重算子; poc为词 性权重; coo是一个复合算子, 在所有文章热度分析完 毕后追加, 由本文章包含的热词满足共现度算 子, 传递其他文章的热度数值累加完成, 具体算法为: 5.根据权利要求4所述的文章热度分析方法, 其特征在于, 所述利用分析控制器中的算 子模组, 对所述预处理数据源按照预设分析算法进行热度分析, 得到每篇文章的热度值排 行信息, 还 包括:权 利 要 求 书 1/2 页 2 CN 115455269 A 2预设编码规则; 基于所述编码规则, 利用所述基本热词对文章进行独热编码, 构建文章对应的标签向 量; 将所述标签向量输入预设的xgboost算法模型中, 进行模型分类预测, 回归输出该文章 对应的预测分值 等级。 6.根据权利要求5所述的文章热度分析方法, 其特征在于, 所述利用分析控制器中的算 子模组, 对所述预处理数据源按照预设分析算法进行热度分析, 得到每篇文章的热度值排 行信息, 还 包括: 预设热度值加权调整公式; 根据所述热度值加权调整公式, 利用所述预测分值等级对文章的实时热度进行加权调 整; 调整后, 输出并展示每篇文章的热度分析 结果和排行信息 。 7.一种实现权利要求1 ‑6中任一项所述的文章热度分析方法的装置, 其特征在于, 包 括: 数据采集模块, 用于通过 数据采集器, 采集并提取在线 文章数据源; 格式转换模块, 用于对所提取的文章数据源进行格式转换并进行预处理, 得到预处理 数据源; 热度分析模块, 用于利用分析控制器中的算子模组, 对所述预处理数据源按照预设分 析算法进行 热度分析, 得到每篇文章的热度值 排行信息 。 8.一种数据处理架构, 用于执行权利要求1 ‑6中任一项所述的文章热度分析方法, 其特 征在于, 包括: 数据采集器, 用于采集并提取在线 文章数据源; 算子模组, 用于 完成分析控制器对数据的加工、 转 化和抽取进程, 得到预处 理数据源; 分析控制器, 用于采用所述算子模组对所述预处理数据源进行词级维度分析、 段落文 章分析和模型分类预测, 得到每篇文章的热度值 排行信息 。 9.一种分析系统, 其特 征在于, 包括: 处理器; 用于存储处理器可执行指令的存 储器; 其中, 所述处理器被配置为执行所述可执行指令时实现权利要求1至6中任一项所述的 文章热度分析 方法。权 利 要 求 书 2/2 页 3 CN 115455269 A 3

PDF文档 专利 文章热度分析方法、装置、数据处理架构和分析系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文章热度分析方法、装置、数据处理架构和分析系统 第 1 页 专利 文章热度分析方法、装置、数据处理架构和分析系统 第 2 页 专利 文章热度分析方法、装置、数据处理架构和分析系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 01:00:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。