奥特曼飙河南话，小扎马斯克真人约架！豆包新模型把AI视频玩成「活人」_财经

奥特曼飙河南话，小扎马斯克真人约架！豆包新模型把AI视频玩成「活人」

创始人

2025-12-18 22:03:40

0次

新智元报道

编辑：编辑部

【新智元导读】就在刚刚，字节Seedance 1.5 pro一上线，网友们都玩疯了！音画同步、方言直出效果太惊艳，文物直播、熊猫唠嗑、小扎和马斯克上演真人角斗，这个模型的升级，将彻底改变未来的AI视频制作流程。

最近的AI视频模型大混战，豆包也下场了！

就在今天，火山引擎在FORCE大会上，正式发布了豆包视频生成模型Seedance 1.5 pro，生成效果一下子就把我们震到了。

比如，被谷歌折磨得不行的OpenAI CEO奥特曼，痛苦扶额飙出河南方言：

唉呀，最近谷歌咋恁牛咧？发那个模型直接给咱干趴下了！昨天的生图模型都没人瞅！

甚至，已经有网红大V用它做出爆款视频了。

老祖宗文物们走进直播间里开始孤身摇，一边还唱着时下最火的热门歌曲，如此脑洞十足的视频，眼看着就要在小红书开始病毒式传播。

不用怀疑，这么逼真的效果，背后都来自Seedance 1.5 pro的加持！

没错，这次的全方位升级，直接让它在AI视频模型中全面领先。

首先，Seedance 1.5 pro可以支持音视频联合生成了，不再局限于视觉维度。

其次，模型的视觉冲击力和运动效果，又一次突破了上限。

多语言的超自然对白、人物情绪与表情细腻的亮点，也让人印象深刻。

这些升级加起来，让模型生成的视频形成了极其强大的影视级叙事张力。

而且，如此丝滑的效果，已经人人可用了，价钱也不贵！

即日起，个人用户可在豆包APP、即梦AI体验；企业用户可在火山方舟体验中心体验，自12月23日起火山引擎也会上线该模型API。

Seedance 1.5 pro到底有多强？别急，让我们一个一个来拆解。

影视级叙事张力

什么是一个AI视频的灵魂？

显然，视觉模型需要做到的不仅是生成高清画面，还要能驾驭影视级的镜头语言、叙事张力，同时还要捕捉转瞬即逝的微表情。

在这方面，Seedance 1.5 pro此次的增强也相当令人刮目相看。

无论是审讯的女人不屑的表情，还是男人的特写镜头中皱眉、微笑与咽口水等微动作，模型都极强地表现了出来，谍战大片分分钟生成。

在越来越多的实测中，我们惊喜地发现模型具备极其细腻的情绪捕捉能力。

即使没有台词，它也能通过细微的表情变化，来延伸情绪铺垫。

比如在这个地球被三体殖民的末日世界中，Seedance 1.5 pro根据指令详细推测出了故事背景，并且极其细致地演绎出了罗辑悲伤压抑的内心状态，情绪变化细微而富有层次，呈现出大片的细腻质感。

音画高精同步

AI视频的一大难关，就是不仅要「看得见」，更要「听得真」。

当AI从创作「默片」升级到真正的有声视频，生成质量才更经得起现实检验。

为此，我们专门设计了一个办公室场景——职场拍马屁尴尬现场（延迟反映版）。

首先，老板先自己讲了一个明显不好笑的冷笑话，自己先笑了起来，然后脸上非常期待员工们的表情。

员工们的脸部特写显示，空气中充满了「即将假笑」的压迫感。随后大家的职场假笑同时爆发，留下老板在原地困惑。

可以看出，Seedance 1.5 pro完全做到了视觉和听觉在时间上的精确同步。

接下来，让Seedance 1.5 pro帮我们呈现一场扎克伯格和马斯克在八角笼中的硅谷终极对决。

拳拳到肉的厮杀让这场角斗惊心动魄。而整个视频中，无论是两人还是观众，每个声效跟动作都能完美对上。

多人多语言

助力短剧、喜剧和国风

除了音效的升级之外，这次Seedance 1.5 pro还给了我们一个大惊喜。

以往的AI视频里，我们常常被「张口无声」或「闭口说话」的诡异画面劝退——人物口型和台词完全是错位的。

而现在，这个问题被Seedance 1.5 pro彻底解决了。

准备好，接下来是一大波方言袭击！

率先登场的是——活力大湾区，魅力新广州！

熊猫戴着贝雷帽坐在巴黎街角的咖啡馆外，跟法国总统及夫人说着四川话，总统夫人笑着用法语回答。

地道的四川话，让熊猫一张口就令人忍俊不禁。

多人多语言的功能，让短剧、喜剧、国风的内容创作者都更添了一把利器。

短剧中的角色，可以自然地说着自己的家乡话；在喜剧中，能够完美还原方言特有的幽默感和节奏，让笑点更自然。

在昆曲永恒的国粹经典《牡丹亭》中，Seedance 1.5 pro让我们得以穿越回到古代，一窥这部与莎翁《罗密欧与朱丽叶》齐名的唯美爱情悲剧。

如此逼真的效果，大V们只要有脑洞，马上就能产出下一个爆款了！

专业运镜+动态张力

满足高难度场景需求

因为Seedance 1.5 pro优化了运镜控制和动态张力，就能更好地应对高难度的复杂场景生成。

它相对从容地演绎高动态、高冲击力的运动场景。

在下面这个蹦极视频中，它演绎出极强的临场感，真实还原了极限运动的速度与力量。

而模型自发的运镜调度能力，能够执行高难度镜头运动。

我们让它来个恐怖片场景。双胞胎小女孩站在走廊中，随后镜头开始挤压，各种复杂的运镜创造出空间的畸变感，恐怖效果拉满。

产业级场景

在广告电商等产业级场景，Seedance 1.5 pro也有着广阔的应用场景。

比如奥特曼举着一瓶香奈儿No.5，用一口标准的普通话给我们打着广告。

技术突破

让默片走向有声电影

值得一提的是，Seedance 1.5 pro的技术论文也已于近日公开，让我们得以一窥这个强大的模型背后的奥秘与巧思。

论文地址：https://arxiv.org/pdf/2512.13507

长久以来，AI视频生成领域都在上演着令人尴尬的「独角戏」：AI生成的画面流光溢彩，却往往伴随着死一般的寂静，或是被后期硬贴上并不合拍的音效。

这种割裂感，让AI视频始终像是一个精美的玻璃标本——好看，但没有生命。

Seedance 1.5 pro的出现，是一次从「默片时代」向「有声电影」的大跨越。

它抛弃了业内惯用的「先生成视频、再匹配音频」的级联式老路，转而采用原生音视联合生成（Native Audio-Visual Joint Generation）架构。

在它的「大脑」——双分支扩散Transformer（MMDiT）中，像素的光影与声波的震动被视为同一数据的两面。

这意味着，当它构思一只玻璃杯落地时，碎裂的清脆声响并非后期合成，而是与玻璃触地的画面在毫秒间同步诞生的。

这种底层逻辑的重构，带来了对竞品的降维打击。

因此，Seedance 1.5 pro在音频能力上成为市面上所有模型中唯一的八边形战士，定义了顶尖模型新基准。

Seedance 1.5 pro的亮点，不只有极致的音画同步，和更懂「中国味」。

因为依托多阶段蒸馏技术，模型的推理速度暴涨10倍，这就意味着它不再是只有顶级显卡才能供养的昂贵玩具，而是真正能下沉到短剧制作、广告创意一线的生产力工具，从实验室走向工业界。

如果说Sora 2展示了AI对物理世界的视觉想象力，那么Seedance 1.5 pro则赋予了AI倾听与表达的感官通感。

One More Thing

最后，Seedance 1.5 pro即将上线的Draft样片功能，也是让人非常期待。

这个功能，能让我们在抽盲盒阶段，就输出较低分辨率的视频，锁定关键元素，如果确认没问题，才会给你高清成片。

一下子，模型推理成本直接就节约了最高60%，性价比超高。

上：Draft 480p；下：满血1080p

（视频截图）

上：Draft 480p；下：满血1080p

（动图节选）

虽然强敌环伺、竞争升级，但Seedance 1.5 pro，依然稳稳站在浪潮前端。

因为，它真正做到了声画交融、彼此成全，画面、音效和情绪节奏都能融为一体，直接输出影视级成品。

从此，AI视频不再只是「会动的画面+背景音」，而是直接可进入剪辑流程的素材。

未来的视频制作中，声音设计可以从开头就介入构思。

一场AI视频的风暴已经掀起，我们也无比期待，它掀起的另一个浪头。

参考资料：

秒追ASI

上一篇：【美丽四川】成都的“幸福吸引力法则”||曾敏婷

下一篇：瑞银财富管理：亚洲地区企业格局正发生深刻转型

奥特曼飙河南话，小扎马斯克真人约架！豆包新模型把AI视频玩成「活人」

相关内容

热门资讯