AI视频生成新突破:只需图片和音频,即可轻松制作生动短片!
科技界传来激动人心的消息!近期,抖音旗下图片视频工具即梦AI宣布即将推出令人惊叹的新功能。
这款全新功能采用了先进的多模态视频生成模型 OmniHuman,为创作者带来了前所未有的便利。只需提供一张图片和一段音频,该模型就能生成一条栩栩如生的 AI 视频,大幅提升视频制作的效率和质量。
OmniHuman 技术主页透露,该模型由字节跳动自主研发,支持输入各种尺寸的图片,包括肖像、半身和全身。根据输入的音频,OmniHuman 可自动生成人物与其匹配的动作,包括演讲、演唱、演奏乐器和移动。
对于人物视频生成中的常见问题,如手势崩坏,OmniHuman 也做出了显著的改进。此外,该模型还支持输入动漫和 3D 卡通等非真人图片,并能保持原有的风格和动作。
从展示的演示效果来看,OmniHuman 的生成效果令人印象深刻,具有较高的自然度。为了防止该技术被滥用,字节跳动技术团队特别强调,OmniHuman 将不会对外提供下载。
即梦 AI 相关负责人透露,OmniHuman 目前已具备不俗的表现,但生成影视级别视频仍有提升空间。搭载 OmniHuman 的多模态视频生成功能将首先在即梦上进行小范围测试,并逐步开放。
该负责人还表示,即梦将对该功能实施严格的安全审核机制,并在输出视频上标注水印以提醒用户。此举旨在确保 AI 技术发挥积极作用,帮助视频创作者充分发挥想象力。