(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210088994.1
(22)申请日 2022.01.25
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 朱娅妮 倪嘉铭 王慧 沈张一
姚晔
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 朱月芬
(51)Int.Cl.
G06F 21/60(2013.01)
G06F 40/129(2020.01)
G06F 40/151(2020.01)
G06F 40/289(2020.01)G06F 40/30(2020.01)
G06F 40/247(2020.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于汉字部件组合的文本无载体信息
隐藏方法
(57)摘要
本发明公开了一种基于汉字部件组合的文
本无载体信息隐藏方法, 首先确定搜索式无载体
信息隐藏方法, 对索引生成算法进行改进, 引入
汉字部件组合机制, 同时改进标签形式, 以区分
关键词与生成汉字。 发送方对秘密信息进行切
分, 得到关键词集合, 使用选定的信息 隐藏方法
并结合改进后的标签, 将关键词嵌入到多个载体
文本并发送给接收方完成秘密通信。 接收方按顺
序接收所有文本, 使用提取算法结合改进标签从
多个载体中提取关键词, 最后将关键词按顺序组
成原始秘密信息。 本发明方法有效地提升了非常
用汉字的隐藏成功率, 在使用小型文本库的前提
下依然可以保证高隐藏成功率和高隐藏 容量。
权利要求书3页 说明书5页 附图1页
CN 114491597 A
2022.05.13
CN 114491597 A
1.一种基于汉字 部件组合的文本无 载体信息隐藏方法, 其特 征在于, 包括如下步骤:
步骤1.确定搜索式无载体信息隐藏方法, 根据选用的方法构建对应的载体文本库并确
定定位标签形式和信息隐藏提取算法, 对搜索式无载体信息隐藏方法的索引生成算法进 行
改进, 引入汉字 部件组合机制, 同时改进标签形式, 以区分 关键词与生成汉字;
步骤2.发送方对秘密信息进行切分, 得到关键词集合, 使用步骤1选定的信息隐藏方法
并结合改进后的标签, 将关键词嵌入到多个载体文本并发送给接收方完成秘密通信;
步骤3.接收方按顺序接收所有文本, 使用步骤1选用的提取算法结合改进标签从多个
载体中提取关键词, 最后将关键词按顺序组成原 始秘密信息 。
2.根据权利要求1所述的一种基于汉字部件组合的文本无载体信息隐藏方法, 其特征
在于, 步骤1方法具体如下:
确定现有的搜索式无载体信 息隐藏方法, 根据选用的方法构建对应的载体文本库并确
定定位标签形式和信息隐藏提取算法, 对搜索式无载体信息隐藏方法的索引生成算法进 行
改进, 引入汉字部件组合机制, 同时改进标签形式, 以区分关键词与生成汉字, 详细流程如
下:
步骤1.1, 确定定位标签的长度n; 从载体文本库中取出一篇文本T, 剔除T中非汉字符,
统计汉字的总数W, 将T的起始位置IP置 0;
步骤1.2, 选取文本T中从IP开始的n个汉字, 根据GB K编码的奇偶性将n个汉字转换为二
进制序列作为标签L; 对标签后的四个汉字 分词, 取分词后的第一个词 作为关键词K, 创建一
张哈希表并以L命名, 将关键词和文本路径存入以L为名的哈希表中; 若名为L的文件已经存
在, 则直接存 储;
步骤1.3, 对关键词K, 执 行汉字部件组合 算法, 生成重组汉字集 合H;
步骤1.4, IP= IP+1, 重复步骤1.2, 直到IP+n+4>W 为止;
步骤1.5, 从载体文本库中取出另一篇文本, 重复步骤1.2至步骤1.4, 直到文本库中所
有文本都被遍历完; 返回以各 标签命名的哈希 表作为索引文件;
步骤1.6, 使用多层RNN模型提取载体文本库的文本特征, 得到满足载体文本库样本特
征的语言模型。
3.根据权利要求2所述的一种基于汉字部件组合的文本无载体信息隐藏方法, 其特征
在于, 步骤1.3所述的汉字 部件组合 算法步骤如下:
步骤1.3.1, 对关键词K中的每个汉字进行拆分, 分别得到偏旁部首集合P={p1,p2,…,
pi}和独立汉字集 合C={c1,c2,…,cj};
步骤1.3.2, 若i+j≤8, 对独立汉字集合C中的汉字继续拆分, 得到偏旁部首集合P'=
{p'1,p'2,…}和独立汉字集合C'={c'1,c'2,…}, 将P集合与P'集合做并集运算, 最终结果
赋予P, 将C集 合与C'集 合做并集 运算, 最终结果赋予C; 否则, 直接执 行步骤1.3.3;
步骤1.3.3, 将偏旁部首集合P中的偏旁按顺序进行两两组合, 若成功组合成汉字且关
键词K中不包含 该汉字, 则将该汉字添加到生成汉字集合H中,将偏旁部首集合P中的偏旁按
顺序与集合C中的独立汉字进行两两组合, 若成功组合成汉字且关键词K中不包含该汉字,
则将该汉字添加到 重组汉字集 合H中;
步骤1.3.4, 若重组汉字集合H的长度大于8, 则只随机保留8个, 得到最终的重组汉字集
合H; 将集 合H中的每 个汉字存 入以L为名的哈希 表中。权 利 要 求 书 1/3 页
2
CN 114491597 A
24.根据权利要求2或3所述的一种基于汉字部件组合的文本无载体信 息隐藏方法, 其特
征在于, 步骤2具体方法如下:
发送端对秘密信 息进行切分, 得到关键词集合, 使用步骤1选定的信 息隐藏方法并结合
改进后的标签, 将关键词嵌入到多个载体文本并发送给接 收方完成秘密通信, 详细流程如
下;
步骤2.1, 确定 秘密信息 M;
步骤2.2, 对秘密信息M分词、 去停用词, 得到关键词集合KeywordSet, 对关键词集合
KeywordSet中的每个 关键词使用同义词林将 每个关键词扩充成同义词集合, 接着使用如下
计算公式计算相似度:
其中βv, 1≤u≤4且v∈N, 是调节参数, 四个调节参数如下β1=0.5, β2=0.2, β3=0.17, β4
=0.13; Simo, 1≤o≤v 且o∈N, 表示语义描述式 中特定描述之间的相似度, 公式如下:
其中p1, p2为两个义原, d是p1, p2在义原层次体系中的最短路径长度, a是一个可调节参
数; 筛选出同义词集合中相似度与 原关键词在0.5以上的词, 得到最 终同义词扩展集合S ′=
{s1, s2,…, sn}, sk={w1, w2,…}, sk为最终扩展的同义词集 合;
步骤2.3, 对于S ′中的每个同义词集合sk, 遍历sk中每个同义词w, 根据同义词w在步骤
1.2得到的所有哈希表中查询满足条件的文本, 将检索得到的所有文本存入同义词集合sk
对应的载体文本集合tk; 遍历完成后, 对集合tk中的文本进行去重; 若tk为空集, 则将sk对应
的关键词切分成单个汉字, 将 每个汉字作为关键词w在步骤1.2得到的所有哈希表中查询满
足条件的文本, 最终结果存 入tk中, 并将载体文本集 合tk存储到文本集 集合T中;
步骤2.4, 对T构建词袋模型, 取出出现频率最高的文本txt, 记录该文本中所有隐藏的
关键词组成关键词 集合K′={k′1, k′2,…}、 对应的标签集合L ′={l′1, l′2,…}和关键词在
秘密信息中的位置 集合U′={u′1, u′2,…}, 并判断该关键词是原始关键词还是重组汉 字; 若
关键词为原始关键词, , 在文本txt中根据关键词k ′x和标签l′x检索标签位置d ′x, 将标签l
′x、 关键词在秘密信息中的位置集合m ′x和标签位置d ′x按固定格式转化为二进制比特e并存
储; 若关键词为重组汉字, 除了在 文本中根据关键词k ′x和标签l′x检索标签位置d ′x, 还需要
对关键词使用汉字部件组合算法对关键词中 的每个汉字进行拆分重组并编码; 将标签l ′x、
关键词在秘密信息中的位置 集合u′x和标签位置d′x以及重组汉 字的编码按固定格式转化为
二进制参数 e并存储;
步骤2.5, 将文本txt发送给接收方, 在T中剔除上述文本中已经隐藏的载体文本集合,
重复步骤2.4, 直到T为空集 为止;
步骤2.6, 随机挑选若干词语组成侯选池, 使用步骤1.6得到的语言模型计算侯选池中
词语的转移概率, 使用Hu ffman编码按条件概率对这些词语进行编码, 根据二进制参数e选
择合适的词语作为下一轮输入, 直到二进制参数e完全被嵌入, 最 终生成文本txt ′并发送给
接收方。
5.根据权利要求4所述的一种基于汉字部件组合的文本无载体信息隐藏方法, 其特征权 利 要 求 书 2/3 页
3
CN 114491597 A
3
专利 一种基于汉字部件组合的文本无载体信息隐藏方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:45上传分享