全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210073662.6 (22)申请日 2022.01.21 (71)申请人 哈尔滨理工大 学 地址 150080 黑龙江省哈尔滨市南岗区学 府路52号 (72)发明人 杨海陆 刘乾 张建林 张金  陈晨 王莉莉 丁晓宇  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 刘景祥 (51)Int.Cl. G06F 16/906(2019.01) G06Q 50/00(2012.01) G06F 40/30(2020.01) G06F 40/216(2020.01) (54)发明名称 基于文本特征整合的语义社交网络多视角 社区发现方法 (57)摘要 本发明公开了一种基于文本特征整合的语 义社交网络多视角社区发现方法, 包括: 抓取社 交网络中用户发表语义信息; 提取语义信息中预 设数量的词频特征构建矩阵; 对语义信息进行 TF‑IDF值计算, 提取预设数量的关键字 特征构建 矩阵; 利用LDA主题模型获取语义信息的主题和 每位用户的主题分布构建矩阵; 利用Pearson相 关系数求解上述矩阵之间的相似度矩阵, 并与预 设阈值进行比较, 若大于则建立连接重构原社交 网络, 得到语义社交网络; 利用基于图学习的多 视角聚类算法对语义社交网络进行多视角社区 发现, 得到社区划分结果。 该方法从多个视角考 虑社交网络的语义信息再进行社区发现, 保证社 区结构划分结果的高质量、 高准确度和高凝聚 性。 权利要求书3页 说明书10页 附图3页 CN 114461879 A 2022.05.10 CN 114461879 A 1.一种基于文本特征整合的语义社交网络多视角社区发现方法, 其特征在于, 包括以 下步骤: 步骤S1, 抓取社交网络 中用户发表语义信 息, 并对所述语义信息进行预处理, 得到初始 语义信息; 步骤S2, 对所述初始语义信息进行词频特征提取, 选取预设数量的词频特征, 以构建词 频向量矩阵; 步骤S3, 对所述初始语义信息进行TF ‑IDF值计算, 提取预设数量的关键字特征, 以构 建 关键字向量矩阵; 步骤S4, 利用LDA主题模型获取所述初始语义信息的主题和每位用户的主题分布, 以构 建主题向量矩阵; 步骤S5, 将所述词频向量矩阵、 所述关键字向量矩阵和所述主题向量矩阵堆叠形成数 据矩阵, 利用Pearson相关系数求解数据 矩阵中所述词频向量矩阵、 所述关键字向量矩阵和 所述主题向量矩阵之间的相似度矩阵, 并与预设阈值进行比较, 若大于则 建立连接重构原 社交网络, 得到语义社交网络, 反 之则不连接; 以及 步骤S6, 利用基于图学习的多视角聚类算法对所述语义社交网络进行多视角社区发 现, 得到社区划分结果。 2.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述步骤S1中利用正则表达式和去停词表清洗所述语义信息中的无效信息, 得 到所述初始语义信息 。 3.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述 步骤S2具体包括: 步骤S201, 将所述初始语义信息作为一个整体语料库D ′进行词频统计, 计算每个词的 词频数; 步骤S202, 将每个词的词频数降次排序, 根据预设需求选取词频数, 构成所述词频向量 矩阵及其特 征数量, 并依次统计所述词频向量矩阵在每条语义信息中出现的次数。 4.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述TF ‑IDF值求解公式为: 其中, fi,j为词频向量矩阵在每条语义信息中出现的次数, |wj|为文件dj中不同单词的 个数, |D|为语料库中文本数量的总数, 即社交网络中用户发表的语义信息的总数, |{j:wi ∈dj}|为包含词wi的文件数目。 5.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述 步骤S3具体包括: 步骤S301, 对所述初始语义信息进行 过滤、 分词和词性筛 选; 步骤S302, 将处理后的初始语义信息作为文档d', 使用TF ‑IDF值求解公式和预设语料 库得到所述文档d'中每个词组的TF ‑IDF值, 将前t 个TF‑IDF值所对应的词组作为关键字kw,权 利 要 求 书 1/3 页 2 CN 114461879 A 2其中, t为 正整数; 步骤S303, 将文档d'的所有语义信息作为语料库D', 某个用户发表的信息作为文档dj, 再次TF‑IDF值求解公式计 算关键字kwj在所述文档dj中的TF‑IDF值, 以构建所述关键字向量 矩阵。 6.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述 步骤S4具体包括: 步骤S401, 对所述初始语义信息进行清洗和过 滤; 步骤S402, 确定需要生成的主题个数, 利用LDA生成文档 对处理后的初始语义信息进行 主题抽取, 得到每条信息的主题分布; 步骤S403, 将所述主题作为所述主题向量矩阵的行, 和所述用户发表的信息作为所述 主题向量矩阵的列, 信息的主题分布作为数据矩阵的值, 以构建所述主题向量矩阵。 7.根据权利要求6所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述 LDA生成文档的具体过程 为: 设所述初 始语义信息的先验分布是Dirichlet分布, 即对任意用户发表的文本信息dj∈ D, 得到文本的主题分布 θd=Dirichlet( α ), α 为超参数向量, 决定文档中主题的分布比例; 设所述主题的先验分布是Dirichlet分布, 即对任意主题t∈T, 得到词分布βt= Dirichlet( η ), η为超参数向量, 决定主题中词的分布比例; 对任意语义信息dj中的第n个词, 从主题分布θd中得到其主题编号 从 所述主题编号 得知词 的概率分布 8.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述 步骤S5中Pearso n相关系数的求 解过程为: 其中, ri,j为每个视角的相似度矩阵, xi和xj分别为词 频向量矩阵或关键字向量矩阵或 主题向量矩阵的第i列和第j列, N为词频向量矩阵或关键字向量矩阵或主题向量矩阵的总 列数。 9.根据权利要求1所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述 步骤S6具体包括: 步骤S601, 基于图学习的多视图聚类算法对所述语义社交网络进行多视角社区发现, 通过自适应 每一个视角的权 重, 学习得到多个视角融合后的最终矩阵; 步骤S602, 利用秩约束rank(Ls)=n‑c使所述最终矩阵的连通分量数正好为社区结构 数。 10.根据权利要求9所述的基于文本特征整合的语义社交网络多视角社区发现方法, 其 特征在于, 所述 步骤S602的目标函数为: 权 利 要 求 书 2/3 页 3 CN 114461879 A 3

PDF文档 专利 基于文本特征整合的语义社交网络多视角社区发现方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于文本特征整合的语义社交网络多视角社区发现方法 第 1 页 专利 基于文本特征整合的语义社交网络多视角社区发现方法 第 2 页 专利 基于文本特征整合的语义社交网络多视角社区发现方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。