全网唯一标准王
ICS 35.020 L 79 SJ 备案号: 中华人民共和国电子行业标准 SJ/T11615.1—2016 网络数据采集分析软件规范 第1部分:框架 Specification for network data collection and analysis software Part1:Framework 2016-01-15发布 2016-06-01实施 中华人民共和国工业和信息化部 发布 SJ/T11615.1—2016 网络数据采集分析软件规范 第1部分:框架 1范围 SJ/T11615.1一2016的本部分规定了网络数据采集和分析的基本流程、软件框架和:-般要求。本 部分中的网络数据是指互联网中用户行为数据。 本部分适用于互联网数据采集分析软件的开发商、信息化建设单位、最终用户、第三方监理或者质 款件的设计、开发、运行和维护等各个阶段的 相关工作。 2规范性引用文 下列文件刺 牛的店用是的 凡是注日期的 用文 文件,仅洋凸期的版本适用于本文件。 的引用 文件, 凡是不注日 真最新版本(包指 斤有的修改单) 于本文件 GB130 信 通用多八位编 码字符集(UCS 网络装 集分析软件规范第3部分:信识别 SJ/T SJ/T 网络数 来集分标软现范 第4部分:服务要求 3术语和 下列术语和蔻 义适用于 3. 1 结构化数据 struetureddata 可用关系型数据库的一 表结构来逻辑表达实现的数据, 股可有 储到关系型数据库中。 3. 2 半结构化数据 semi-structured dat 具有一定的结构性,但其结构变化很大,无法建立二维表进行对应。 3.3 非结构化数据 non-structured data 不能用数据库二维逻辑表来表现的数据。 注:包括文本、图片、图像和音频/视频信息等。 3. 4 用户行为 user behavior 用户在互联网中所进行的发布、获取、使用、评价物品或服务的各种行动。 1 SJ/T11615.1—2016 缩略语 4 下列缩略语适用于本文件。 API—applicationprogramminginterface, 应用程序编程接口。 5网络数据采集和分析流程 5.1 网络数据概述 网络数据可以分为结构化数据、半结构化数据和非结构化数据,其具备以下特点: 结构化数据 1) 信息易抽取; 2) 规模小; 3) 缺乏个性化的属性信息; b) 半结构化数据 信息较易抽取; 2) 规模较大; 3) 具有个性化的属性信息; 4) 形式多样; 5) 含有噪声; c) 非结构化数据 1) 信息不易抽取; 复杂多样; 2) 3) 规模大。 5.2 采集流程 网络数据采集是对用户行为数据进行采集、接收以及存储,包括文本、图片、视频和音频等,并将 静态信息和动态信息保存到媒体上。互联网相关数据源作为输入,经过数据数据采集、数据传输和数据 存储最终存放至采集库中,如图1所示。 互联网数据 + 数据采集 数据传输 结构化数据 数据存储 半结构化数据 采集库 非结构化数据 图1 网络数据采集流程 SJ/T11615.1—2016 5.3分析流程 网络数据分析应基于保存于媒体上的数据按一定规则和算法建立的模型,并在真实数据之上进行信 息识别,同时应利用分析的结果提供各种数据服务。 网络数据分析依据采集得到的数据,将其分为结构化数据、半结构化数据及非结构化数据。其中半 结构化数据和非结构化数据经过信息抽取处理之后,与结构化数据一并进行数据整合,存放入知识库中, 作为进一步加工处理的数据储备。最终根据用户服务的不同需求,将知识库的数据通过推理、推荐和统 计等方法进行数据加工,并将结果展示给用户。 图2给出了网络数据分析流程。 服务 ↑ 信息加工 推理 推荐 统计 知识库 结构化数据 半结构化数据 数据整合 信息抽取 非结构化数据 图2网络数据分析流程 6 网络数据采集与分析软件框架 6.1概述 网络数据采集与分析软件包含采集和分析两个主要模块。本部分描述网络数据采集与分析软件的框 架,见图3。其中采集模块各部分的具体要求见第7章,分析模块各部分的具体要求见SJ/T11615.3。 SJ/T11615.1—2016 功能服务 信息过滤 信息检索 信息监测 数据分发服务 竞争情报服务 报告服务 其他服务 口 分析模块 信息加工 推理 推荐 统计 17 数据整合 自动聚类 文本分类 换 自动排版 动排重 采集模块 数据存储 数据采集 ↑ ↑ ↑ ↑ 新闻 论坛 博客 微博 电子商务 其他来源 图3 网络数据采集与分析软件框架示意图 SJ/T 11615.1—2016 6.2采集模块 6.2.1数据采集 用于互联网数据获取的方法主要分为两类: 利用数据源对外提供的API(应用程序编程接口); 在允许的情况下,采用网页爬虫技术。 利用API,数据都以结构化方式开放,整个获取与再加工的技术成本都非常低。然而,在中文的互 联网数据中,存在大量公开的数据源不提供API,例如微信公众号,论坛等等。因此要获得较为全面的 互联网数据还需要依靠网络爬虫技术。 网页爬虫技术是从底层HTTP协议出发,模拟真实用户访问并保证整个网页,再通过页面解析程序 将网页的非结构化数据结构化成有用的数据类型。 6.2.2数据传输 数据接收程序应能实时高效地处理所有采集点发送过来的数据包。如果使用了多副本策略和数据库 阵列负载均衡,数据接收软件还需要提供单点故障容错的机制: a)单个数据库若发生故障,任何数据读写都不应该受到影响; b)数据接收程序能自动忽略受损数据库节点,并提供对应的系统监控警报。 6.2.3数据存储 网络数据采集软件中存储记录数量在百亿条甚至千亿条以上的数据集。宜采用分布存储的方式,即 把数据存放到多台服务器上,每台服务器存储一部分的数据。同时宜考虑分布式数据库存在着单点故障 恢复和可管理性等问题。为此系统采取一个多副本存储的分布式数据库方式。该方式可在非人工干预下 完成自动化副本复制和数据版本校验的工作。 6.3分析模块 6.3.1信息抽取 网络数据分为结构化数据、半结构化数据和非结构化数据。其中,半结构化数据和非结构化数据应 首先对其进行信息抽取,获得其中的实体内容。例如,人物、地点、事件或商品等。 信息抽取包含内码转换、自动排版和自动排重等具体实现方法: a)内码转换:是将不同编码方案的采集数据转换成统一的编码的功能,编码应支持GB13000一 2010; b) 自动排版:是将采集到的半结构化数据和非结构化数据进行重新排版的功能,使其易被进一步 分析操作; 自动排重:是自动识别采集内容是否存在重复,并能自动去除重复的功能。 6.3.2数据整合 数据整合包含自动聚类、自动摘要和文本分类模块: 自动聚类:根据文本内容的相似度,将内容聚合成不同的类别,同时对每一个聚得的类别,给 a) 出精确的类别主题词; 自动摘要:可根据采集内容自动提取出文本的摘要; b) c)文本分类:根据文本的内容,将文本自动归类到某一主题下。 针对经过信息抽取得到的数据将其与结构化数据进行整合,作为整个分析系统的知识库。数据整合 包含自动聚类、自动摘要和文本分类等方法。 5 SJ/T11615.1—2016 基于历史数据,分析系统需分析出数亿种关系,由此才能使整个采集系统保持高效,要达成一个高 效的采集与分析策略,大致需要积累6个月左右的数据。 6.3.3信息加工 网络数据采集与分析软件在执行其服务时,需对其知识库中的信息进行信息加工。信息加工通常分 为推理、推荐和统计方法。该类方法可针对知识库中的数据进行训练建模,并依据用户请求给出相应的 结果展示。具体内容如下: a),推理:针对已有的数据进行训练,并依据用户提出的请求给出相应的结果; b)推荐:依据用户提出的请求或根据用户的习惯自动推送给用户合适的内容; c)统计:采用统计方法对已有数据进行分析,给出统计视图。 6.4服务要求 本部分界定的网络数 少包括以 a) 信息过滤 b) 信息检 c) (P 数捷 分发 务 e) 争情报 服务: 报告服务 f) 网络数据采集与分析件的价能费求宜按照SJ/T1015.4执行。 7网络数据 采集要求 本章规定了网络数据 网络数据采 包含数据采集 各个部分 求如下: 数据来集 求如下: 频度的设置功能。适用时,宜能根据数据源的更新频度自动调整采集频度; 2) 宜支持数据源的可配置; 宜支特采集 3) 为数据的时间戳自动生成功能,支持网络时问同步 宜支持网 集技术: 5) 原且IP行为和地址自动转换: 6) 宜支持对注册社区中的帐号自动 册于管理,支持智能模拟真实用户的所有行为。适当时, 宜支持采集源的验证码验证、手机短信验证的自动验证要求; 宜支持动态调整采集的策略,支持对后台任务分配产生反馈,并自动增加或降低采集频率, 宜使每次的IP请求能够获得最大化的新增数据; 8) 宜支持自动删除广告功能,减少采集中的垃圾数据; 9) 宜支持采集点流量的自动限制功能,支持24h不间断的数据采集; 10) 宜支持采集图片、附件、音频,视频等文件或附件,附件与正文自动映射与关联; 11) 宜支持列表、内容的分页采集; 12) 宜提供数据源有效性的监控功能,在数据源失效是能自动提供反馈信息。 b) 数据接收的要求如下: 数据接收模块与存储模块宜独立布置,具体要求如下: 1)宜提供容错机制。单个数据节点发生故障时,数据读写宜不受影响; 6

.pdf文档 SJ-T 11615.1-2016 网络数据采集分析软件规范 第1部分 框架

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
SJ-T 11615.1-2016 网络数据采集分析软件规范 第1部分 框架 第 1 页 SJ-T 11615.1-2016 网络数据采集分析软件规范 第1部分 框架 第 2 页 SJ-T 11615.1-2016 网络数据采集分析软件规范 第1部分 框架 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-08-24 05:05:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。