全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211111807.3 (22)申请日 2022.09.13 (71)申请人 浙江交通职业 技术学院 地址 311112 浙江省杭州市余杭区良渚街 道莫干山路1515号 (72)发明人 姚嫣菲  (74)专利代理 机构 北京沃知思真知识产权代理 有限公司 1 1942 专利代理师 王妮 (51)Int.Cl. G06V 40/70(2022.01) G06V 20/40(2022.01) G06V 20/52(2022.01) G06V 10/82(2022.01) G06Q 50/20(2012.01) (54)发明名称 一种多模态融合学习偏好识别方法 (57)摘要 本发明公开了一种多模态融合学习偏好识 别方法, 涉及学习偏好识别领域, 解决了现有的 实际教学中, 教师通过主观判断来确定学习偏 好, 难以精确量化, 很难兼顾所有学生的个性化 需求的问题, 现提出如下方案, 其以现有穿戴设 备对语音特征学习, 维生命特征学习, 二维空间 特征学习, 二维时间特征学习进行监测, 并通过 一个改进的3D网络用来学习时序特征; 并对空间 环境进行监测; 将穿戴设备获取的生命信号转换 为三通道的二维图像, 将视频分为N段; 在每一段 视屏内提取相应特征值; 采用稀疏采样的方法, 将N个预测结果进行聚合, 得到预测的得分。 本方 法将多模态融合, 根据表情、 语音、 心率、 呼吸、 血 压等信息建立多模态特征, 使得具有识别效果更 好的特点。 权利要求书1页 说明书3页 CN 115457667 A 2022.12.09 CN 115457667 A 1.一种多模态融合学习偏好识别方法, 其特 征在于, 包括以下步骤: S1: 首先将学生对视频、 声音、 文本、 动手实践四种学习方式进行分类, 并按照P1 ‑P4四 个级别确定学生对各 学习方式偏好 程度, P1‑P4数值越大代 表越喜欢该 方式; S2: 以现有穿戴设备为监测硬件对语音特征学习, 维生命特征学习, 二维空间特征学 习, 二维时间特 征学习进行监测, 并通过一个改进的3D网络用来学习时序特 征; S3: 以现有穿戴设备为监测硬件将其他搭载无死角的空间环境监测摄像头, 对周围学 习环境进行实时监测; S4: 以Resnet ‑50为基础网络, 将穿戴设备获取的生命信号转换为三通道的二维图像, 将视频分为 N段; S5: 将每一段视屏内包含的语音特征学习, 维生命特征学习, 二维空间特征学习, 二维 时间特征学习情况与当时实时监测的学习环境进行融合, 并提取相应特 征值; S6: 采用稀疏采样的方法, 二维空间网络以单帧RGB图像为输入, 二维时间网络以连续 光流场为输入, 然后 将N个预测结果进 行聚合, 分别得到空间和时间网络上对视频中类别预 测的得分; S7: 3D时间特征网络将得到的N帧RGB图像为输入, 通过将3D卷积分解为空间上的二维 卷积及时间上的一维卷积, 减少了模型参数 数量 S8: 然后将5个分支分别与一个LSTM连接, 引入门机制, 即输入门、 遗 忘门、 输出门; S9: 最后这5个分支的结果进行融合, 得到整个网络的预测结果。 2.根据权利要求1所述的一种 多模态融合学习偏好识别方法, 其特征在于, 所述S5 中相 应特征值的提取为 提取相应场景空间下的学生 面部表情。 3.根据权利要求1所述的一种 多模态融合学习偏好识别方法, 其特征在于, 所述S6 中学 生表情, 采用时间流卷积网络, 针对光流图的, 选择视频中的任意一帧的时间及其后面的N 帧叠合成一个连续多帧稠密光 流进行训练, 得到相应的运动信息 。 4.根据权利要求1所述的一种 多模态融合学习偏好识别方法, 其特征在于, 所述S6 中场 景空间, 采用流卷积网络, 针对RGB图像, 对于输入的视频数据随机挑选出任意一 帧进行训 练, 得到表面信息, 如目标、 场景等。权 利 要 求 书 1/1 页 2 CN 115457667 A 2一种多模 态融合学习偏好识别方 法 技术领域 [0001]本发明涉及学习偏好识别领域, 尤其涉及一种多模态融合学习偏好识别方法。 背景技术 [0002]传统的教学设计不考虑学生的差异性, 而实际情况是学生群体庞大, 学习偏好有 差异, 这是普遍存在的客观规律。 即使是25人的小班, 个体之间的差异也非常大, 传统教学 模式很难兼顾所有 学生的个性化需求。 实际教学中, 教师通过主观判断来确定学习偏好, 难 以精确量 化。 因此提出一种多模态融合学习偏好识别方法。 发明内容 [0003]本发明的目的在于提供一种多模态融合学习偏好识别方法, 解决了现有的实际教 学中, 教师通过主观判断来确定学习偏好, 难以精确量化, 很难兼顾所有 学生的个性化需求 的问题。 [0004]为实现上述目的, 本 发明提供如下技术方案: 一种多模态融合学习偏好识别方法, 其特征在于, 包括以下步骤: [0005]S1: 首先将学生对视频、 声音、 文本、 动手实践四种学习方式进行分类, 并按照P1 ‑ P4四个级别确定学生对各 学习方式偏好 程度, P1‑P4数值越大代 表越喜欢该 方式; [0006]S2: 以现有穿戴设备为监测硬件对语音特征学习, 维生命特征学习, 二维空间特征 学习, 二维时间特 征学习进行监测, 并通过一个改进的3D网络用来学习时序特 征; [0007]S3: 以现有穿戴设备为监测硬件将其他搭载无死角的空间环境监测摄像头, 对周 围学习环境进行实时监测; [0008]S4: 以Resnet ‑50为基础网络, 将 穿戴设备获取的生命信号转换为三通道的二维图 像, 将视频分为 N段; [0009]S5: 将每一段视屏内包含的语音特征学习, 维生命特征学习, 二维空间特征学习, 二维时间特 征学习情况与当时实时监测的学习环境进行融合, 并提取相应特 征值; [0010]S6: 采用稀疏采样的方法, 二维空间网络以单帧RGB图像为输入, 二维时间网络以 连续光流场为输入, 然后 将N个预测结果进 行聚合, 分别得到空间和时间网络上对视频中类 别预测的得分; [0011]S7: 3D时间特征网络将得到的N帧RGB图像为输入, 通过将3D卷积分解为空间上的 二维卷积及时间上的一维卷积, 减少了模型参数 数量 [0012]S8: 然后将5个分支分别与一个LSTM连接, 引入门机制, 即输入门、 遗 忘门、 输出门; [0013]S9: 最后这5个分支的结果进行融合, 得到整个网络的预测结果。 [0014]优选的, 所述S5中相应特 征值的提取为 提取相应场景空间下的学生 面部表情。 [0015]优选的, 所述S6中学生表情, 采用时间流卷积网络, 针对光流图的, 选择视频中的 任意一帧的时间及其后面的N帧叠合成一个连续多帧稠密光流进行训练, 得到相应的运动 信息。说 明 书 1/3 页 3 CN 115457667 A 3

PDF文档 专利 一种多模态融合学习偏好识别方法

文档预览
中文文档 5 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多模态融合学习偏好识别方法 第 1 页 专利 一种多模态融合学习偏好识别方法 第 2 页 专利 一种多模态融合学习偏好识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:16:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。