字节跳动放大招！OmniHuman数字人模型即将上线：一张图+一段音频即可生成视频

AI视频生成新突破：只需图片和音频，即可轻松制作生动短片！

科技界传来激动人心的消息！近期，抖音旗下图片视频工具即梦AI宣布即将推出令人惊叹的新功能。

这款全新功能采用了先进的多模态视频生成模型 OmniHuman，为创作者带来了前所未有的便利。只需提供一张图片和一段音频，该模型就能生成一条栩栩如生的 AI 视频，大幅提升视频制作的效率和质量。

OmniHuman 技术主页透露，该模型由字节跳动自主研发，支持输入各种尺寸的图片，包括肖像、半身和全身。根据输入的音频，OmniHuman 可自动生成人物与其匹配的动作，包括演讲、演唱、演奏乐器和移动。

对于人物视频生成中的常见问题，如手势崩坏，OmniHuman 也做出了显著的改进。此外，该模型还支持输入动漫和 3D 卡通等非真人图片，并能保持原有的风格和动作。

从展示的演示效果来看，OmniHuman 的生成效果令人印象深刻，具有较高的自然度。为了防止该技术被滥用，字节跳动技术团队特别强调，OmniHuman 将不会对外提供下载。

即梦 AI 相关负责人透露，OmniHuman 目前已具备不俗的表现，但生成影视级别视频仍有提升空间。搭载 OmniHuman 的多模态视频生成功能将首先在即梦上进行小范围测试，并逐步开放。

该负责人还表示，即梦将对该功能实施严格的安全审核机制，并在输出视频上标注水印以提醒用户。此举旨在确保 AI 技术发挥积极作用，帮助视频创作者充分发挥想象力。

Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

2025-01-212.0万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

字节跳动放大招！OmniHuman数字人模型即将上线：一张图+一段音频即可生成视频

AI视频生成新突破：只需图片和音频，即可轻松制作生动短片！

推荐关键词

24小时热搜

大家正在看

AI日报：DeepSeek上线国家超算互联网平台；字节公开数字人视频生成框架OmniHuman；OpenAI更新Logo品牌形象

AI视频生成的2024，Sora务虚、即梦和可灵务实

AI日报：1秒出图！英伟达开源文生图模型Sana；阿里妈妈推淘宝星辰视频生成大模型；OpenAI发布经济蓝图

多模态卷王阶跃震撼6连发，春节档最强AI家族来袭！

国产AI「快」到火爆外网！10秒生成一个视频，网友：我见过最快的AI

搭载多模态AI助理三星Galaxy S25系列重塑移动AI新格局

中科金财多模态应用拓展新领域，AI大剧1月24日起快手独播

Sam Altman炸场东京，亲曝GPT-5研发路线图，多模态能力颠覆传统

AI日报：Kimi发布多模态图片理解模型API；周鸿祎参演AI短剧开拍；MiniMax-01系列模型开源；星火同传语音大模型发布

颠覆传统！谷歌搜索测试AI模式：第一页完全由AI生成

DeepSeek深夜发布全新多模态大模型性能碾压OpenAI

AI日报：赶超o1!国产大模型DeepSeek R1开源;Kimi多模态思考模型k1.5登场;清影2.0上线智谱清言

掌握图像到视频 AI 提示，以快速创建令人惊叹的动画视频

三星Galaxy S25系列多模态感知树立人机交互新范式

Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

AI一键生成论文大纲和万字论文初稿，提供降重、降AI率、答辩PPT等一站式服务！

AI日报：智谱Realtime、4V、Air系列模型发布；Vidu2.0上线10秒生成短片；xAI上线Grok网页版

刚刚，Sam Altman深夜发文，AI Agent将重塑世界经济

Adobe发布新生成式AI工具：一次可处理1万张图片！

GPTBots.ai 集成 DeepSeek Janus-Pro，为企业应用提升 AI 图像生成能力

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

字节跳动放大招！OmniHuman数字人模型即将上线：一张图+一段音频即可生成视频

AI视频生成新突破：只需图片和音频，即可轻松制作生动短片！

推荐关键词

24小时热搜

大家正在看

AI日报：​DeepSeek上线国家超算互联网平台；字节公开数字人视频生成框架OmniHuman；OpenAI更新Logo品牌形象

AI视频生成的2024，Sora务虚、即梦和可灵务实

AI日报：1秒出图！英伟达开源文生图模型Sana；阿里妈妈推淘宝星辰视频生成大模型；OpenAI发布经济蓝图

多模态卷王阶跃震撼6连发，春节档最强AI家族来袭！

国产AI「快」到火爆外网！10秒生成一个视频，网友：我见过最快的AI

搭载多模态AI助理 三星Galaxy S25系列重塑移动AI新格局

中科金财多模态应用拓展新领域，AI大剧1月24日起快手独播

Sam Altman炸场东京，亲曝GPT-5研发路线图，多模态能力颠覆传统

AI日报：Kimi发布多模态图片理解模型API；周鸿祎参演AI短剧开拍；MiniMax-01系列模型开源；星火同传语音大模型发布

颠覆传统！谷歌搜索测试AI模式：第一页完全由AI生成

DeepSeek深夜发布全新多模态大模型 性能碾压OpenAI

AI日报：赶超o1!国产大模型DeepSeek R1开源;Kimi多模态思考模型k1.5登场;清影2.0上线智谱清言

掌握图像到视频 AI 提示，以快速创建令人惊叹的动画视频

三星Galaxy S25系列多模态感知 树立人机交互新范式

Kimi硬刚多模态满血版o1，首曝训练细节！强化学习scaling新范式诞生

AI一键生成论文大纲和万字论文初稿，提供降重、降AI率、答辩PPT等一站式服务！

AI日报：智谱Realtime、4V、Air系列模型发布；Vidu2.0上线10秒生成短片；xAI上线Grok网页版

刚刚，Sam Altman深夜发文，AI Agent将重塑世界经济

Adobe发布新生成式AI工具：一次可处理1万张图片！

GPTBots.ai 集成 DeepSeek Janus-Pro，为企业应用提升 AI 图像生成能力

AI日报：DeepSeek上线国家超算互联网平台；字节公开数字人视频生成框架OmniHuman；OpenAI更新Logo品牌形象

搭载多模态AI助理三星Galaxy S25系列重塑移动AI新格局

DeepSeek深夜发布全新多模态大模型性能碾压OpenAI

三星Galaxy S25系列多模态感知树立人机交互新范式