文章来自:机器之心
近日,Meta 突然官宣了 Llama 3,把开源模型的实力又往上提了一截。
Llama 3 总共有三个版本 ——8B、70B 和 405B。其中,8B 和 70B 版本已经开源,405B 版本仍在训练中。
根据现有的评测数据,405B 版本的性能已经逼近 GPT-4。这可能促使 OpenAI 尽早发布下一代模型,从而保持其最强 AI 模型的地位。
那么,这个还没有亮相的 Llama 3 405B 大模型将带来哪些惊喜?Meta 会继续坚持开源吗?Llama 4 以及之后的模型会往哪些方向迭代?
之前 Meta 对元宇宙的笃信是出于哪些动力?在最近的一次访谈中,Meta CEO 扎克伯格回应了这些问题。
附上视频地址:https://www.youtube.com/watch?v=bc6uFV9CJGg&t=17s
他提到,Llama 3 405B 将是一个密集模型,预计年末发布。此外,他们还计划到年底拥有约 35 万块 GPU,目前已经建立了由 22000 块 GPU 和 24000 块 GPU 构建起来的两个单独集群。
在谈到开源问题时,他类比说,在现有的应用生态系统中,苹果和 Google 等「守门人」对开发者能够构建的应用类型拥有很大的控制权,他不想让 AI 世界也变成这个样子,因此他对开源持积极态度。他表达了对于一个开放的 AI 生态系统的愿景,在这个系统中,开发者不会被少数控制着闭源模型的大公司所限制。
以下是机器之心整理的访谈内容,部分内容存在删减。
Llama-3 超大杯什么时候发布?
Dwarkesh Patel:我们来谈谈刚发布的 Llama-3 和 Meta AI 吧。
Mark Zuckerberg:我想大多数人最关心的还是 Meta AI 的新模型,即 Llama 模型的升级版本:Llama-3。我们既会向开发社区开源,也会让其成为 Meta AI 的助力。Meta AI 值得关注的点有很多,但我认为最重要的是它是目前人们可以使用的最智能且可自由使用的 AI。我们将把 Google 和 Bing 整合起来用以获取实时知识。
Meta AI 将会整合进我们的许多应用,包括 Facebook 和 Messenger—— 你可以在它们的搜索框中任意提问。我们在其中加入了很多创意功能,比如动画化功能可以将任意图片变成动画。
比较震撼眼球的一项更新是它现在能以非常快的速度生成高质量图像,而且它能随着用户输入而实时更新生成结果。
我们未来几周或几个月会在一些国家发布这些应用,但还不会全面铺开。我认为这会是一个非常重要的事件,是 Meta AI 向前迈出的一大步。
深入到 Meta AI 内部,在技术方面最吸引眼球的当然是 Llama-3。我们训练了三个版本:8B 和 70B 参数的模型,还有一个 405B 参数的密集模型(还在训练之中)。8B 和 70B 模型的表现非常激动人心,它们都是同等规模模型的领军者。
我们还有后续发布的路线图,包括多模态、更强大的多语言支持、更大的上下文窗口。我们希望能在今年年末的某个时候发布 405B 版本。在目前的训练阶段,它的 MMLU 得分已经达到了 85 左右。我们预计完成训练后它能在许多基准上领先。刚刚发布的 70B 模型也很出色,MMLU 为 82,数学和推理能力的得分都领先。
Dwarkesh Patel:着实不凡。
Mark Zuckerberg:8B 版本基本上与我们之前发布的 Llama-2 的最大版本一样强大,也就是说 Llama-3 的最小版本足以比肩 Llama-2 的最大版本。
买那么多 GPU 是未卜先知?