全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210346533.X (22)申请日 2022.03.31 (71)申请人 安徽希施玛数据科技有限公司 地址 230088 安徽省合肥市高新区创新大 道2800号创新产业园二期G2栋 610室 (72)发明人 蒋庆高 汪健  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 徐章伟 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/958(2019.01) G06F 9/445(2018.01) G06F 9/448(2018.01) G06F 21/12(2013.01) (54)发明名称 网页数据采集方法、 网页数据采集装置和存 储介质 (57)摘要 本申请公开了一种网页数据采集方法。 采集 方法包括: 基于C efSharp框架声明浏览器和数据 源网址变量, 然后实例浏览器并加载数据源网址 变量, 可以直接访问网页源代码。 然后, 调用异步 委托事件以对浏览器进行初始化, 在浏览器初始 化完成的情况下, 获取数据源网址变量对应的网 页源代码, 对网页源代码进行数据解密得到目标 源代码。 通过调用异步委托事件和解密加密数据 可以较快地得到干净的数据。 最后, 根据目标源 代码确定目标数据并存储目标数据。 本申请还提 供一种网页数据采集装置和非易失性计算机可 读存储介质。 权利要求书2页 说明书13页 附图14页 CN 114969474 A 2022.08.30 CN 114969474 A 1.一种网页数据采集方法, 其特 征在于, 包括: 基于CefSharp框架声明浏览器和数据源网址变量; 实例所述浏览器并加载所述数据源 网址变量, 调用异步委托事件以对所述浏 览器进行 初始化; 在所述浏览器初始化完成的情况 下, 获取所述数据源网址变量对应的网页源代码; 对所述网页源代码进行 数据解密得到目标源代码; 根据所述目标源代码确定目标 数据并存 储所述目标 数据。 2.根据权利要求1所述的网页 数据采集方法, 其特征在于, 所述实例所述浏览器加载所 述数据源网址变量, 调用异步委托事 件以对所述浏览器进行初始化, 包括: 实例所述浏览器并加载 所述数据源网址变量, 加入所述异步委托事 件; 设置睡眠时间; 根据所述睡眠时间延迟调用所述异步委托事 件以对所述浏览器进行初始化。 3.根据权利要求1所述的网页 数据采集方法, 其特征在于, 所述对所述网页源代码进行 数据解密得到目标源代码, 包括: 获取所述网页源代码的表头数据; 根据预设代码元 素对所述表头数据进行匹配以确定加密数据; 根据所述加密数据对所述表头数据进行 数据解密得到所述目标源代码。 4.根据权利要求3所述的网页 数据采集方法, 其特征在于, 所述根据预设代码元素对所 述表头数据进行匹配以确定加密数据, 包括: 将所述表头数据划分为多个表头 字段; 在所述表头字段包括所述隐藏代码元素的情况下, 确定所述表头字段为所述加密数 据。 5.根据权利要求1所述的网页 数据采集方法, 其特征在于, 所述对所述网页源代码进行 数据解密得到目标源代码, 包括: 获取所述网页源代码的表内容数据; 根据预设代码元 素对所述表内容数据进行匹配以确定加密数据; 对所述表内容数据进行 数据解密得到所述目标 数据。 6.根据权利要求5所述的网页 数据采集方法, 其特征在于, 所述根据预设代码元素对所 述表内容数据进行匹配以确定加密数据, 包括: 将所述表内容数据划分为多个表内容字段; 在所述表内容字段包括所述隐藏代码元素的情况下, 确定所述表内容字段为所述加密 数据。 7.根据权利要求1所述的网页 数据采集方法, 其特征在于, 所述根据所述目标源代码确 定目标数据并存 储所述目标 数据, 包括: 将所述目标源代码转换为数据表缓存数据; 将所述数据表缓存数据循环插 入目标数据库进行存 储。 8.一种网页数据采集装置, 其特 征在于, 包括: 声明模块, 用于基于 CefSharp框架声明浏览器和数据源网址变量; 初始化模块, 用于实例所述浏览器并加载所述数据源网址变量, 调用异步委托事件以权 利 要 求 书 1/2 页 2 CN 114969474 A 2对所述浏览器进行初始化; 获取模块, 用于在所述浏览器初始化完成的情况下, 获取所述数据源网址变量对应的 网页源代码; 解密模块, 用于对所述网页源代码进行 数据解密得到目标源代码; 存储模块, 用于根据所述目标源代码确定目标 数据并存 储所述目标 数据。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器中存储有计算机程 序, 所述计算机程序被所述处理器执行时, 实现权利要求 1‑7任一项所述的网页数据采集方 法。 10.一种计算机程序的非易失性计算机可读存储介质, 其特征在于, 当所述计算机程序 被一个或多个处 理器执行时, 实现权利要求1 ‑9任一项所述的网页数据采集方法。权 利 要 求 书 2/2 页 3 CN 114969474 A 3

.PDF文档 专利 网页数据采集方法、网页数据采集装置和存储介质

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网页数据采集方法、网页数据采集装置和存储介质 第 1 页 专利 网页数据采集方法、网页数据采集装置和存储介质 第 2 页 专利 网页数据采集方法、网页数据采集装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:07:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。