黄华
发明人: 黄华,赵天琦
申请人: 北京理工大学
申请号: 202310807921.8
申请日期: 2023.07.03
摘要: 一种基于元学习的语音驱动个性化人脸模型生成方法,属于多模态视觉生成领域。通过分层次学习整体映射与个人说话风格,采用两阶段的训练方案:在元学习阶段,根据大量数据学习语音特征与人脸模型变形的整体映射;在微调阶段,通过少量样本在元学习阶段所得的整体映射上进行个性化训练,快速适应目标人的说话风格。利用自监督 ...
发明人: 朱林,陈现章,王立志,张磊,黄华
申请人: 北京理工大学
申请号: 202311242487.X
申请日期: 2023.09.25
摘要: 本发明公开一种基于脉冲神经网络的目标分割方法与系统,属于目标分割领域。本发明通过事件脉冲转换关系将连续的事件脉冲流转化为适配脉冲神经网络的输入表示;通过脉冲神经元提取信息并记忆过去特征,提高目标分割模型对连续事件脉冲输入的特征提取能力,并降低能量消耗;通过时空特征聚合模块融合多时间步长特征,提高目标 ...
发明人: 黄华,王同博
申请人: 北京理工大学
申请号: 202311160733.7
申请日期: 2023.09.08
摘要: 本发明公开的一种基于未来特征自监督学习的流式感知方法,属于计算机视觉领域。本发明实现方法为:构建未来特征自监督学习的流式感知模型,流式感知模型简称为FFSSL模型。FFSSL模型包括StreamYOLO子模型、YOLOX子模型、自监督模块。利用未来帧的外观特征来增强流式感知的性能,提高FFSSL模型 ...
发明人: 朱林,郑沄龙,王立志,张磊,黄华
申请人: 北京理工大学
申请号: 202311029207.7
申请日期: 2023.08.15
摘要: 一种面向通用光照条件的神经形态相机去噪方法,属于视频去噪领域。依据脉冲流噪声强度与场景光照的关系,将连续的时空脉冲流转化为特定窗口下的图片特征表示,适配传统神经网络的输入;通过标定的暗电流矩阵和响应非一致性矩阵,去除暗电流噪声和响应非一致性噪声;通过二维离散小波变换将图像特征转换为频域特征,利用频域 ...
发明人: 黄华,赵天琦
申请人: 北京理工大学
申请号: 202310825876.9
申请日期: 2023.07.06
摘要: 一种基于扩散模型的高真实感神经渲染方法,属于多模态视觉生成领域。采用扩散模型作为条件生成模型,利用语义编码器将人脸模型与目标人脸部图像压缩到语义空间提取条件信息,进而生成在语义条件隐变量下人脸模型的渲染结果,提高生成人脸图像的高真实感和准确性。通过显示地学习三维人脸模型到二维图像的映射关系,在采样过 ...
发明人: 朱林,张鹏杰,王立志,张磊,黄华
申请人: 北京理工大学
申请号: 202311252300.4
申请日期: 2023.09.26
摘要: 本发明公开的一种基于事件相机的多模态光流估计方法,属于光流估计领域。将事件、图像两种模态数据作为输入,利用事件的高时间分辨率、低延迟、高动态范围的优势提升光流估计算法在低光、高速场景下的性能。通过将事件数据流转化为事件体素,神经网络能被用于事件数据的处理;通过循环神经网络和特征残差连接,实现事件特征 ...
发明人: 张磊,董彪,黄华
申请人: 北京理工大学
申请号: 202310386924.9
申请日期: 2023.04.12
摘要: 本发明公开的一种基于音视频结构对齐的演讲视频生成方法,属于虚拟数字人领域。本发明包括音频分割模块、音频转化模块、音频编码模块、视频编码模块、视频融合解码模块。音频转化模块用于将分割的音素,根据傅里叶变换转化为更符合人耳频率范围的梅尔频谱图。在音频编码过程中,将相同音素的帧作为一个连续的时间模块,并将 ...
发明人: 朱林,陈现章,王立志,张磊,黄华
申请人: 北京理工大学
申请号: 202310376811.0
申请日期: 2023.04.11
摘要: 本发明公开一种面向时空事件脉冲流的目标区域分割方法及系统,属于视频分割领域。本发明通过将连续的事件脉冲流转化为特定的输入表示,有效的适配传统神经网络的输入;通过循环神经网络提取信息并记忆过去特征,提高模型对连续事件脉冲输入的特征提取能力;通过循环特征编码器匹配目标,同时更新的隐藏状态,建模时空关系, ...
发明人: 黄华,宋凌飞
申请人: 北京理工大学,先进计算与关键软件(信创)海河实验室
申请号: 202310534190.4
申请日期: 2023.05.12
摘要: 本发明公开的一种基于多段S曲线映射的红外图像动态范围压缩方法,属于红外图像处理领域。本发明使用聚类算法对图像内容进行聚类,并对每一类图像内容分别进行S曲线映射,能够实现图像内容自适应的动态范围压缩,从而能较好地保留图像细节。本发明采用S曲线映射进行红外图像动态范围压缩,能够利用S曲线两端具有压缩程度 ...
作者: Zhu, Lin1; Zheng, Yunlong1; Geng, Mengyue2; Wang, Lizhi1; Huang, Hua1
出处: 31st ACM International Conference on Multimedia, MM 2023 Ottawa, ON, Canada 2023
会议录: 8251-8260