全网唯一标准王
ICS35.020 L 79 SJ 备案号: 中华人民共和国电子行业标准 SJ/T11615.42016 网络数据采集分析软件规范 第4部分:服务要求 Specificationfornetwork datacollection andanalysis software Part4:Requirementsofservice 2016-01-05发布 2016-06-01实施 发布 中华人民共和国工业和信息化部 SJ/T11615.4—2016 网络数据采集分析软件规范 范第4部分:服务要求 1范围 SJ/T2016的本部分规定了网络数据采集分析软件服务的具体要求。 本部分适用于互联网数据采集和分析软件的开发商、信息化建设单位、最终用户、第三方监理或者 质量保障单位、评测单位等,用以指导在网络数据采集分析软件的设计、开发、运行和维护等各个阶段 的相关工作。 2 规范性引用文件 JSTRY 下列文件对方 的应用是必不可少的。凡是注日期的引用文件 期的版本适用于本文件。 凡是不注日期的用改 件 其最新版包活所有的修改单) 活用 于本 SJ/T 11 网络数糖采集分析软件关 第1部分:框 OF 3术语和 6151 SJ/T 舌用于本文件 STRI 3. 1 竞争对手和竞争策略的信息和研究。 3. 2 L 元搜索引擎 meta-search engine 通过一个统一的用户界面帮助用户在多个搜索引擎中选择和 (其至是同时利用若干个) 搜索引擎来实现检索操作 UND AR 4服务的功能要求 4.1概述 本部分中的服务指使用不同的方式向用户提供所需数据或信息的活动。本章将从功能方面对网络数 据采集和分析的服务做出要求。服务的非功能要求参考本部分第5章。 4.2信息过滤 4.2.1概述 信息过滤是根据用户的信息需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其他无用和不良 信息。根据用户的不同需求,信息过滤功能可分为基于关键词的信息过滤、基于分类的信息过滤、基于 1 SJ/T11615.4—2016 语义分析的信息过滤。信息过滤功能分类见表1。 表1信息过滤系统分类 过滤方法 用户需求表达形式 信息过滤系统 布尔模型、向量空间模型 关键词 基于关键词匹配与评分 白动分类 分类信息 基于分类 语义分析 语义评价 基于语义分析 4.2.2基于关键词的信息过滤 基于关键词过滤的要求如下: a) 应提供需要进行信息过滤的网络信息; b) 应将用户需求与动态信息流按照过滤模板进行匹配计算,得出过滤结果: c) 应提供过滤结果的去重、相关性排序等操作; (P 支持关键词及其变体的匹配,变体形式包括拆字、替字(同音相似、同形形似)等; e) 支持基于字段的匹配规则,可根据作者、标题、正文等信息进行分类; f) 规则的书写宜支持与(*)、或(+)、非(-)、异或(')等布尔逻辑运算; 示例:作者=(李四+王某)-正文=外汇,标题=世界杯*正文=(汉城+中国队)。 g) 应按照用户需求选择对应的过滤模板。 注:过滤模板可包含若干类匹配规则,每类匹配规则下或者有若干条基于关键词的匹配规则,或者有一组机 器自动学习生成的分类器。 4.2.3基于分类的信息过滤 基于自动分类的过滤技术应具备如下特点: a) 用户通过提供正反例样本来表达自己的过滤需求; 过滤系统根据正反例样本学习一个二值分类器,通过分类器进行信息过滤; 过滤效果可以通过不断补充正反例样本的方式进行自适应学习,从而不断提升效果。 4.2.4 基于语义分析的信息过滤 基于语义分析的信息过滤可选用下列的技术方法: a)方法1:先对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,然后对抽取出来的 形容词或短语逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到文 章的总体文本倾向性; b)方法2:预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典,然后将待评估文档 参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得到整个文档的倾向 性; c)方法3:采用基于机器学习的文本分类技术,人工标注一些文档的倾向性,并将这些文档作为 训练集构造一个褒贬二值分类器,然后使用构造好的分类器对待评估文档进行褒贬二值分类, 即识别出该文档的倾向性。 4.3信息检索 2 SJ/T11615.4—2016 信息检索应将信息按一定的方式组织,并根据用户的需要找出有关的信息。 信息检索应包括元搜索、搜索引擎两部分。元搜索引擎是搜索引擎的集成,当用户发出检索请求时, 元搜索引擎进行一定的检索请求处理,选择合适的成员搜索引擎,把检索请求发到最有希望找到用户检 索结果的搜索引擎,以提高效率和检索精度。被选中的多个搜索引擎再对互联网采集的信息、站内信息 进行查询检索,并将检索结果返回给元搜索引擎,由元搜索引擎对检索结果去重、合并之后的结果返回 给用户。 元搜索引擎应包括三个功能:检索请求提交、检索接口代理、检索结果显示。要求如下: 检索请求提交,应提供用户“个性化”的检索设置功能,包括调用哪些搜索引擎、检索时间限 制、结果数量限制等; 检索接口代理,应提供将用户的检索请求“翻译”成满足不同搜索引擎“本地化”要求的格式 检索结果显示,应提供所有搜索引擎检索 结果的去重、合并、输出处理等;或者使用元搜索引 结果 搜索引擎要求如下 应提供在半结构化数据上创建倒排索引; 应提供结构化数据和非结构化数据的联合检索; 应提供 应提 TEO 注: 信息检 要求如下: 户可根居通过 一的食界面输 询请求,宜支接 关键词、布尔 检率式 一段自由格式文 本的检索词; 关度计 方法等); 拉提供查 询的预 择能 应提供 复链接 应提供查询 结果的筛选、排序等功能。 信息检索示例参 附录A。 L 4.4信息监测服务 信息监测服务应包括规则配 盲息浏览和统计分析的功能 具体要求如下: 支持用自根据自身的需要配置关键词组合,并根据用户的 规则配置:网络数据采集分析软件应 a) 配置筛选符合条件的信息,规则的配置项宜包括但不限于: 1)规则名称; 2)关键词组合; 3)重要度。 b) 信息浏览:网络数据采集分析软件应提供根据用户关心的话题采用动态摘要、高亮关键词、相 关推荐等技术,让用户迅速浏览内容的功能。浏览的内容宜包括但不限于: 1)标题; 2)摘要; 3) 信息类型; 4) 链接地址; 3 SJ/T11615.4—2016 5)发布时间。 c)统计分析:网络数据采集分析软件应支持针对客广关心的热点信息和突发事件进行信息追踪, 并对信息的倾向和趋势进行分析,以确保信息舆论的健康发展。统计分析的维度宜包括但不限 于: 1)时间趋势; 2)信息类型; 3)地域分布; 4) 聚类分析。 4.5数据分发服务 数据分发服务应包括数据申请、数据汇总、数据加密和数据分发的功能,具体要求如下: a 数据申请:网络数据采集分析软件应支持使用者根据自身的服务需求或者指定检索条件的请求 获取指定类型的数据资源。数据申请的方式宜包括但不限于: 1)基于网站的申请; 2)基于频道的申请; 3)基于自定义检索条件的申请。 b) 数据汇总:网络数据采集分析软件的分析模块应支持将网络数据采集分析软件采集模块所采集 到的各类数据根据不同的分类进行汇集整合和统一的数据格式转化。 数据加密:网络数据采集分析软件应支持通过加密技术和算法对计算机的数据信息进行加密处 理,实现信息隐蔽和数据安全。 数据分发:网络数据采集分析软件应支持将采集到的互联网数据根据使用者的数据申请将其分 别发送给不同的用户以备进一步的处理和应用。 4.6竞争情报服务 竞争情报服务应包括信息浏览、热点聚焦、定量统计分析、传播演化分析、多维度分析和危机预警 的功能,具体要求如下: a)信息浏览:网络数据采集分析软件应支持对采集的各类互联网数据资源进行信息识别和数据挖 掘分析,并将分析结果以浏览页面的方式呈现给用户。 b) 热点聚焦:网络数据采集分析软件应支持基于用户的行业特征,对各类互联网数据资源基于语 义进行聚类分析,并将对应行业的热点话题呈现给用户,为用户决策提供支撑数据。 c) 定量统计分析:网络数据采集分析软件应支持根据统计数据建立相应的分析模型,并用该模型 计算出分析对象的各项指标和数值。 d)传播演化分析:网络数据采集分析软件应支持对事件的产生、消亡和转移变化进行分析事件结 构随时间的变化规律。 多维度分析:网络数据采集分析软件应支持通过时间、区域、机构、板块、行业等多种唯独对 e 数据进行深入分析,实现全方位管理,挖掘数据信息,以更加丰富的形式为用户提供决策支持 依据。 危机预警:网络数据采集分析软件应支持对所关注的关键信息指标进行必要的预警提示,采用 f) 4 SJ/T11615.4—2016 统一的时间或者阅值,并随着时间的推进或者达到了阈值则进行预警。预警的方式包括但不限 于: 1)短信预警; 2)邮件预警; 3)桌面预警。 4.7报告服务 报告服务应包括报告定制、素材库、报告生成和报告管理的功能,具体要求如下: a) 报告定制:网络数据采集分析软件应支持根据用户的报告需要定义不同版式的报告模板,且报 告模板应明确报告的样式和报告所包括的内容形式。 b)素材库:网络数据采集分析软件应支持用户从系统中选择文字信息或图表作为报告的素材,并 将用户选择的所有素材维护到素材库中。素材库宜根据需要分别维护成公共的素材库和个人素 材库。 c)报告生成:网络数据采集分析软件应支持用户对素材进行筛选和整理,并依据用户最终选定的 素材和报告模板,生成报告。网络数据采集分析软件应提供报告的在线编辑功能,且支持用户

.pdf文档 SJ-T 11615.4-2016 网络数据采集分析软件规范 第4部分 服务要求

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
SJ-T 11615.4-2016 网络数据采集分析软件规范 第4部分 服务要求 第 1 页 SJ-T 11615.4-2016 网络数据采集分析软件规范 第4部分 服务要求 第 2 页 SJ-T 11615.4-2016 网络数据采集分析软件规范 第4部分 服务要求 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-08-24 05:09:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。