全网唯一标准王
ICS 35.020 SJ L79 备案号: 中华人民共和国电子行业标准 SJ/T11615.3—2016 网络数据采集分析软件规范 第3部分:信息识别 Specification for network data collection and analysis software Part3:Informationidentification 2016-01-15发布 2016-03-01实施 发布 中华人民共和国工业和信息化部 SJ/T11615.3—2016 前言 SJ/T11615《网络数据采集分析软件规范》系列标准分为4个部分: 第1部分:框架; 第2部分:数据格式描述; 第3部分:信息识别; -第4部分:服务要求。 本部分为SJ/T11615的第3部分 本部分按照GB/T1.1 2009(标准 请注意本文件的某些内 别这些专利的责任。 本部分由工业和信息化部软件服务业司提出。 本部分由全国信 息技术标准化技术委员会归口。 本部分起草 海计复机铁技术开发中心、中国电子 北京拓尔思信息技 北大 上海市丘联 术股份有限公司 趣网络科技有限 美网信息办公室、厦 公 门理工学院计 算机与信息工程 本部分主 家振宇、胡芸、王洪饺、 卢海英、 都云程、许良奇、 杨建武 杨瑛、崔建峰 肖蕾 NISTRY SJ/T11615.3—2016 网络数据采集分析软件规范第3部分:信息识别 1范围 SJ/T11615的本部分规定了网络数据采集与分析软件中分析模块信息识别部分的具体要求。 注:本部分所界定的网络数据指互联网上由网民参与创造与传播的数据,可包括:新闻及评论、论坛、博客、微博 以及电子商务数据。 本部分适用于互联网数据采集和分析软件的开发商、信息化建设单位、最终用户、第三方监理或者 的相关工作。 2规范性引用文件 下列文件对 是必不可少的 是注日期的引斯 件,仅注日期的版本适用于本文件。 引用文 本文件 凡是不注日期 版本(包 的修改单) GB 13000 信息找 通用多八位编码字符集(UCS) 2005 信息技 GB18030 SJ/T 1161 15 网络数据 集分析软件规范 ISTRY 3术语和定义 SJ/T11615 全的术语和定义适用于本文件。 4信息识别概述 对信息的真伪性、有用性进行 辨认与甄别的过程。信息识别应包含信息 息抽取、 数据整 模央。 5信息抽取 5.1抽取要求 信息抽取的要求如下: a) 应支持结构化、半结构化、非结构化的数据源; 单机应支持GB~TB级数据管理,集群应支持TB级的海量数据管理: b) c) 应支持采集内容的自动排版; (P 应支持自动排重功能; 应支持GB18030—2005强制部分,并应与GB13000—2010相关内容建立映射关系; e) f) 应支持中英文字词混合输入。 5.2特征识别 SJ/T11615.3—2016 特征识别应支持从互联网不断更新的信息中发现一定时期高频出现的短语,比如人名、地名、机构 名和其他常见短语。支持按领域执行热词识别。 示例:领域的一种分类方法可分为政治、经济、军事、娱乐、体育、卫生、科技、社会生活。 对特征热度的计算应考虑两个方面: a)词语出现的频率信息。词语出现频率越高,热度越高; b)历史波动信息。词语近期出现频率上升曲线越陡,热度越高。 特征识别的要求如下: a)待识别的文本可包括标题、信息文本内容的属性等要素: b)应提供识别实体短语和非实体短语的功能; 示例:实体短语包括人名、地名、机构名等短语串。非实体短语包括除了人名、地名、机构名的其他短语串,主要 是名词和动词短语串。 c)应提供选择实体短语识别的方法,识别方法应加以标示; 注:识别方法可包括隐马尔科夫模型、条件随机场等计算模型。 (P 应提供选择非实体短语识别的方法,识别方法应加以标示; 注:识别方法可包括高频字符串识别算法,指基于字符串出现频率等特征进行高频串的识别及其串频统计。 e) 应对候选实体短语和非实体短语串进行热度权值计算,短语的热度权值可包括两个部分:基础 权值和波动权值。 注1:基础权值的影响因素可包括标题出现频率、正文出现频率;波动权值的影响因素可包括短期基础权值变 化频率、中期基础权值变化频率和长期基础权值变化频率。 注2:短期频率与长期频率比值越高,则波动权值越高。 注3:判断热词看重的是该词的新颖程度,最终的历史波动权值越高,则新颖度越高,更符合热点特征的含义, 6数据整合 6.1文本分类 文本分类的要求如下: a)应事先确立类别的分类体系,分类体系一旦被确定,则不应改变; b)一篇文档可被归为多个类别; 文本分类宜采用下列方法评价: a)2 分类状态得分:用于描述将内容归于某个类别下有多大的可信度。 b) 准确率:在所有被判断为正确的内容中,有多大比例是确实正确的。 召回率:在所有确实正确的内容中,有多大比例被判为正确。 泛化性:一个假设能够正确分类训练集之外数据(即新的,未知的数据)的能力称为该假设的 d 泛化性 6.2实体更新 实体更新的内容宜包括新实体识别、实体关系识别、实体识别、实体跟踪。实体更新包括了如下几 部分: a) 新实体识别:应能从新闻、主题、博客和微博等对象中识别出历史上未出现过的新实体。 示例:新事件可以是人物、商品或者事件等等。识别方法可采用向量或概率分布形式,将新的和过去的信息特征集 合比较,检测出差别信息。 b)文本关系识别:应能利用采集到的对象中的文本内容,对给定的两条信息做出判断,即它们是 否讨论同一个实体。 2 SJ/T11615.3—2016 示例:采用余弦相似性计算函数。为了提高相似度计算效果,可采用停用词,英文的词干分析,二元术语向量,增 量修订TF*IDF的取值,以及基于时间的罚分等策略。 实体识别:应能运用文本聚类技术,对已有的网络文本集合,按不同周期(如,日、周、月、 ? 年等)进行聚类,检测出知识库中缺少的实体 d) 实体跟踪:应能识别已确定的实体的后续相关信息。系统利用非常少的正例数据(一个或多个 样本)和大量的反例数据(过去历史)来获得一个分类器,区分新的信息与跟踪实体的关联信 息。 6.3热度计算 网络数据采集与分析软件所提供的网络热点频度与传播的评价宜包括以下属性: a) 传播速度和传播规模; b) 信源或发起网站; 浏览和回复数据; d)事件链接在网页的位置等。 上述评价属性是可选的,用户可根据需求选择上述评价属性的一项或几项进行计算,并依据事件发 展的时间维度,过滤不符合热点发展特性信息,获得热点列表。 网络数据采集与分析规范软件应在给出评价结果时,声明所包含的评价属性。 6.4内容特征提取 网络数据采集与分析软件所提供的内容特征提取宜包括以下方法: a)通过计算每个事件的文档集合中的每个文档的平均相似度,取相似度值最高的文档的标题作为 事件的标题。 b) 按相似度值取排名前若干篇的文档作为事件的相关文档集,利用关键词抽取该文档集事件描述 的一组关键词,再利用多文档自动文摘技术得到事件的摘要描述 c) 应提供对候选实体短语和非实体短语串进行热度排序功能。 d) 应提供热词值的设置功能。热度权值大于设定阈值的词语为热词。 7信息分析 7. 11 信息分析的非功能要求 信息分析的非功能要求如下: a 应充分利用多核CPU、大内存等计算机硬件的潜力,可通过增加硬件配置的方法提升并发数、 计算速度等系统性能指标; b) 宜具备分布式并行计算、多副本机制、对等节点机制、没有单点的高可靠体系架构等技术特点; c) 宜支持异步计算,适应大并发(高连接数)的应用场景要求; d) 宜具备大规模部署的自动化和运行状态监控的能力; e) 须提供开放的二次开发接口。 7.2超趋势分析 趋势分析应根据数学方法对网络数据进行分析预测,结合可视化技术,分析其发展态势,判断在一 个时间段内信息的演变过程。 趋势分析的基础是信息的热度或流行度计算。信息的热度计算应考虑信息的传播量、传播速度等指 标,热度计算公式可参考网络热点的热度计算方法,可参见附录A。 3 SJ/T11615.3—2016 趋势预测分析宜包括但不局限以下方法:回归分析法、指数平滑法等。趋势预测应通过对网络热点 数据曲线的分析预测,预测出可能的发展结果(平缓、爆发或消亡)。趋势预测应建立一个基于历史信 息的趋势线案例库,用于案例比对。 趋势分析的要求如下: a) 应提供依据当前网络信息和历史信息的态势案例库,执行趋势预测功能; b) 应提供网络事件的传播量、传播速度指标; c) 应标示信息热度计算公式,计算公式可参见附录A; (P 应提供按照时间点进行热度计算功能; e) 应提供多条趋势线同时绘制功能,趋势线描述元素包括时间、热度; 示例:趋势图中横坐标代表时间轴,纵坐标代表信息的热度。 f) 应提供不同信息项的态势对比功能; 比对,提供当前事件和预测事件的爆发点 g) 和拐点自动标示。 SJ/T 11615.3—2016 附录A (资料性附录) 趋势分析计算方法示例 本附录举例说明了趋势分析计算方法。 趋势分析计算公式: Hot=axTrans+b*Src+cxRep+dxClick+exPos 式中: Hot 事件热度; Trans 传播数或转载; Src 在重要网站的传播数; 回复数; Rep Click 点击数; Pos 位置的权重。 示例: 权重包括是否登上网站头条,是否登上网站首页等。 其中a,b,cd,e为待定的系数,应通过先验数据进行学习得到。 5

.pdf文档 SJ-T 11615.3-2016 网络数据采集分析软件规范 第3部分 信息识别

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
SJ-T 11615.3-2016 网络数据采集分析软件规范 第3部分 信息识别 第 1 页 SJ-T 11615.3-2016 网络数据采集分析软件规范 第3部分 信息识别 第 2 页 SJ-T 11615.3-2016 网络数据采集分析软件规范 第3部分 信息识别 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-08-24 05:08:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。