当前位置：探秘研究院  科学探索  正文

科学家开发 DIRFA：输入图片和音频，可生成说话视频

2023-11-17 分类：科学探索阅读(215) 评论(0)

来自新加坡南洋理工大学（NTU Singapore）的科研团队近日开发出了 DIRFA 工具，用户给一张图片以及音频内容，可以自动生成 3D 视频，并实现口型和声音的同步协调。

DIRFA 的全称为 DIverse yet Realistic Facial Animations，训练了超过 6000 多人的 100 万个视频片段，音频片段来自一个名为 VoxCeleb2 数据集的开源数据库，并关联面部表情和头部运动。

研究人员表示，DIRFA 可能会在包括医疗保健在内的各个行业和领域带来新的应用，因为它可以实现更复杂和逼真的虚拟助手和聊天机器人，从而改善用户体验。

DIRFA 还可以作为言语或面部残疾人士的强大工具，帮助他们通过富有表现力的头像或数字表示来传达他们的想法和情感，从而增强他们的沟通能力。

附上论文参考地址：Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang, Shijian Lu. Audio-driven talking face generation with diverse yet realistic facial animations. Pattern Recognition, 2023; 144: 109865 DOI: 10.1016/j.patcog.2023.109865

赞(0)

文章链接：https://www.jwfnf.com/3709.html
文章名称：科学家开发 DIRFA：输入图片和音频，可生成说话视频
版权声明：本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权
网站说明：本站资源仅供个人学习交流，请于下载后24小时内删除，不允许用于商业用途，否则法律问题自行承担
免责声明：本站部分内容来源于网络，版权归原作者享有，如果您是该内容的作者，不想本站发布的，请与我们联系，本站将应您的要求删除
站长 QQ：340207562

分享到

相关推荐

暂无文章

评论抢沙发

评论前必须登录！

立即登录注册

更多精彩视频请进入“探秘研究院”【百家号】

"探秘研究院" 是一个集知识性与趣味性于一体的网站，专注于探索世界各地的奇闻异事、未解之谜和神秘文化

点我进入【百家号】

回顶部