新智元报道
编辑:编辑部
【新智元导读】就在刚刚,字节Seedance 1.5 pro一上线,网友们都玩疯了!音画同步、方言直出效果太惊艳,文物直播、熊猫唠嗑、小扎和马斯克上演真人角斗,这个模型的升级,将彻底改变未来的AI视频制作流程。
最近的AI视频模型大混战,豆包也下场了!
就在今天,火山引擎在FORCE大会上,正式发布了豆包视频生成模型Seedance 1.5 pro,生成效果一下子就把我们震到了。
比如,被谷歌折磨得不行的OpenAI CEO奥特曼,痛苦扶额飙出河南方言:
唉呀,最近谷歌咋恁牛咧?发那个模型直接给咱干趴下了!昨天的生图模型都没人瞅!
甚至,已经有网红大V用它做出爆款视频了。
老祖宗文物们走进直播间里开始孤身摇,一边还唱着时下最火的热门歌曲,如此脑洞十足的视频,眼看着就要在小红书开始病毒式传播。
不用怀疑,这么逼真的效果,背后都来自Seedance 1.5 pro的加持!
没错,这次的全方位升级,直接让它在AI视频模型中全面领先。
首先,Seedance 1.5 pro可以支持音视频联合生成了,不再局限于视觉维度。
其次,模型的视觉冲击力和运动效果,又一次突破了上限。
多语言的超自然对白、人物情绪与表情细腻的亮点,也让人印象深刻。
这些升级加起来,让模型生成的视频形成了极其强大的影视级叙事张力。
而且,如此丝滑的效果,已经人人可用了,价钱也不贵!
即日起,个人用户可在豆包APP、即梦AI体验;企业用户可在火山方舟体验中心体验,自12月23日起火山引擎也会上线该模型API。
Seedance 1.5 pro到底有多强? 别急,让我们一个一个来拆解。
影视级叙事张力
什么是一个AI视频的灵魂?
显然,视觉模型需要做到的不仅是生成高清画面,还要能驾驭影视级的镜头语言、叙事张力,同时还要捕捉转瞬即逝的微表情。
在这方面,Seedance 1.5 pro此次的增强也相当令人刮目相看。
无论是审讯的女人不屑的表情,还是男人的特写镜头中皱眉、微笑与咽口水等微动作,模型都极强地表现了出来,谍战大片分分钟生成。
在越来越多的实测中,我们惊喜地发现模型具备极其细腻的情绪捕捉能力。
即使没有台词,它也能通过细微的表情变化,来延伸情绪铺垫。
比如在这个地球被三体殖民的末日世界中,Seedance 1.5 pro根据指令详细推测出了故事背景,并且极其细致地演绎出了罗辑悲伤压抑的内心状态,情绪变化细微而富有层次,呈现出大片的细腻质感。
音画高精同步
AI视频的一大难关,就是不仅要「看得见」,更要「听得真」。
当AI从创作「默片」升级到真正的有声视频,生成质量才更经得起现实检验。
为此,我们专门设计了一个办公室场景——职场拍马屁尴尬现场(延迟反映版)。
首先,老板先自己讲了一个明显不好笑的冷笑话,自己先笑了起来,然后脸上非常期待员工们的表情。
员工们的脸部特写显示,空气中充满了「即将假笑」的压迫感。随后大家的职场假笑同时爆发,留下老板在原地困惑。
可以看出,Seedance 1.5 pro完全做到了视觉和听觉在时间上的精确同步。
接下来,让Seedance 1.5 pro帮我们呈现一场扎克伯格和马斯克在八角笼中的硅谷终极对决。
拳拳到肉的厮杀让这场角斗惊心动魄。而整个视频中,无论是两人还是观众,每个声效跟动作都能完美对上。
多人多语言
助力短剧、喜剧和国风
除了音效的升级之外,这次Seedance 1.5 pro还给了我们一个大惊喜。
以往的AI视频里,我们常常被「张口无声」或「闭口说话」的诡异画面劝退——人物口型和台词完全是错位的。
而现在,这个问题被Seedance 1.5 pro彻底解决了。
准备好,接下来是一大波方言袭击!
率先登场的是——活力大湾区,魅力新广州!
熊猫戴着贝雷帽坐在巴黎街角的咖啡馆外,跟法国总统及夫人说着四川话,总统夫人笑着用法语回答。
地道的四川话,让熊猫一张口就令人忍俊不禁。
多人多语言的功能,让短剧、喜剧、国风的内容创作者都更添了一把利器。
短剧中的角色,可以自然地说着自己的家乡话;在喜剧中,能够完美还原方言特有的幽默感和节奏,让笑点更自然。
在昆曲永恒的国粹经典《牡丹亭》中,Seedance 1.5 pro让我们得以穿越回到古代,一窥这部与莎翁《罗密欧与朱丽叶》齐名的唯美爱情悲剧。
如此逼真的效果,大V们只要有脑洞,马上就能产出下一个爆款了!
专业运镜+动态张力
满足高难度场景需求
因为Seedance 1.5 pro优化了运镜控制和动态张力,就能更好地应对高难度的复杂场景生成。
它相对从容地演绎高动态、高冲击力的运动场景。
在下面这个蹦极视频中,它演绎出极强的临场感,真实还原了极限运动的速度与力量。
而模型自发的运镜调度能力,能够执行高难度镜头运动。
我们让它来个恐怖片场景。双胞胎小女孩站在走廊中,随后镜头开始挤压,各种复杂的运镜创造出空间的畸变感,恐怖效果拉满。
产业级场景
在广告电商等产业级场景,Seedance 1.5 pro也有着广阔的应用场景。
比如奥特曼举着一瓶香奈儿No.5,用一口标准的普通话给我们打着广告。
技术突破
让默片走向有声电影
值得一提的是,Seedance 1.5 pro的技术论文也已于近日公开,让我们得以一窥这个强大的模型背后的奥秘与巧思。
论文地址:https://arxiv.org/pdf/2512.13507
长久以来,AI视频生成领域都在上演着令人尴尬的「独角戏」:AI生成的画面流光溢彩,却往往伴随着死一般的寂静,或是被后期硬贴上并不合拍的音效。
这种割裂感,让AI视频始终像是一个精美的玻璃标本——好看,但没有生命。
Seedance 1.5 pro的出现,是一次从「默片时代」向「有声电影」的大跨越。
它抛弃了业内惯用的「先生成视频、再匹配音频」的级联式老路,转而采用原生音视联合生成(Native Audio-Visual Joint Generation)架构。
在它的「大脑」——双分支扩散Transformer(MMDiT)中,像素的光影与声波的震动被视为同一数据的两面。
这意味着,当它构思一只玻璃杯落地时,碎裂的清脆声响并非后期合成,而是与玻璃触地的画面在毫秒间同步诞生的。
这种底层逻辑的重构,带来了对竞品的降维打击。
因此,Seedance 1.5 pro在音频能力上成为市面上所有模型中唯一的八边形战士,定义了顶尖模型新基准。
Seedance 1.5 pro的亮点,不只有极致的音画同步,和更懂「中国味」。
因为依托多阶段蒸馏技术,模型的推理速度暴涨10倍,这就意味着它不再是只有顶级显卡才能供养的昂贵玩具,而是真正能下沉到短剧制作、广告创意一线的生产力工具,从实验室走向工业界。
如果说Sora 2展示了AI对物理世界的视觉想象力,那么Seedance 1.5 pro则赋予了AI倾听与表达的感官通感。
One More Thing
最后,Seedance 1.5 pro即将上线的Draft样片功能,也是让人非常期待。
这个功能,能让我们在抽盲盒阶段,就输出较低分辨率的视频,锁定关键元素,如果确认没问题,才会给你高清成片。
一下子,模型推理成本直接就节约了最高60%,性价比超高。
上:Draft 480p;下:满血1080p
(视频截图)
上:Draft 480p;下:满血1080p
(动图节选)
虽然强敌环伺、竞争升级,但Seedance 1.5 pro,依然稳稳站在浪潮前端。
因为,它真正做到了声画交融、彼此成全,画面、音效和情绪节奏都能融为一体,直接输出影视级成品。
从此,AI视频不再只是「会动的画面+背景音」,而是直接可进入剪辑流程的素材。
未来的视频制作中,声音设计可以从开头就介入构思。
一场AI视频的风暴已经掀起,我们也无比期待,它掀起的另一个浪头。
参考资料:
秒追ASI