使用姿势和光照归一化从视频中高效学习个性化3D说话人脸-科技信息-神奇百科网

使用姿势和光照归一化从视频中高效学习个性化3D说话人脸

2022-12-19 科技信息 By：佚名

最佳答案“会说话的人”视频用于各种应用，从新闻广播到游戏和电影中的动画角色。当前的合成技术在视点和光照变化下遇到困难或视觉真实感有限。谷歌研究人员最近的一项工作提出了一种新颖的深度学习方法来合成由音频语音信号驱动的 3D 说话人脸。不是建立一个单一的通用模型来应用于不同的人，而...

“会说话的人”视频用于各种应用，从新闻广播到游戏和电影中的动画角色。当前的合成技术在视点和光照变化下遇到困难或视觉真实感有限。谷歌研究人员最近的一项工作提出了一种新颖的深度学习方法来合成由音频语音信号驱动的 3D 说话人脸。

不是建立一个单一的通用模型来应用于不同的人，而是个性化的特定于说话者的模型。这样，实现了更高的视觉保真度。还创建了一种用于消除空间和时间照明变化的算法。它还允许以更有效的数据方式训练模型。人类评分和客观指标表明，建议的模型在真实性、口型同步和视觉质量得分方面优于当前的基线。

在本文中，我们提出了一个基于视频的学习框架，用于从音频中制作个性化的 3D 说话人脸动画。我们引入了两种训练时间数据标准化，可显着提高数据样本效率。首先，我们在一个标准化空间中隔离和表示人脸，该空间将 3D 几何、头部姿势和纹理解耦。这将预测问题分解为 3D 面部形状和相应 2D 纹理图集的回归。其次，我们利用面部对称性和皮肤的近似反照率恒定性来隔离和消除时空照明变化。总之，这些归一化允许简单的网络在新颖的环境照明下生成高保真口型同步视频，同时仅使用单个特定于说话者的视频进行训练。此外，为了稳定时间动态，我们引入了一种自回归方法，该方法根据其先前的视觉状态来调节模型。人类评分和客观指标表明，我们的方法在真实性、口型同步和视觉质量分数方面优于当代最先进的音频驱动视频重演基准。我们说明了由我们的框架支持的几个应用程序。

上一篇：湿疹可以吃鸡蛋吗成人（湿疹可以吃鸡蛋吗）

下一篇：艾滋病初期皮肤症状有哪些（艾滋病初期皮疹位置）

使用姿势和光照归一化从视频中高效学习个性化3D说话人脸

岱组词组（岱组词）

尿盆尿垢太厚怎么去除可以用84吗（尿盆尿垢太厚怎么去除）

32开尺寸多大（32开的尺寸是多少厘米）

如何彻底粉碎微信聊天记录(如何彻底删除微信聊天记录)

诺基亚800缺点（诺基亚800怎么样）

史艺（关于史艺的介绍）

大望过喜是什么成语（大喜过望类似的成语有哪些）

待机最长的智能手机（哪款智能手机待机长）

酒驾喝一瓶啤酒能测出来吗（喝一瓶啤酒能测出来吗）

K271次（k271(k271时刻表)）

点点外卖平台（淘宝点点外卖）

子网掩码怎么算（子网掩码255 255 255 0）

超极本玩游戏怎么样（超级本玩游戏效果好吗）

见闻色（见闻）

明基EX2510游戏显示器评测

长城哈弗m3（我想知道长城M3到底是哪款车形请告知并附照片谢谢及及问）