当地时间周二,美国科技巨头Meta发布了其最强开源人工智能(AI)模型Llama 3.1,拥有三个不同的版本。扎克伯格称其为“业内顶尖水准的”AI模型,并表示能够与OpenAI和谷歌等竞争对手的类似产品相抗衡。
Meta的公告显示,Llama 3.1在Llama 3的基础上进行了重大更新,Llama 3.1主要用于驱动聊天机器人,可以进行八种语言的对话,编写更高质量的计算机代码,并可以解决更复杂的数学问题。
Llama 3.1 405B模型包含4050亿个参数,是近年来参数规模最大的模型之一。通常,参数大致对应于模型的解决问题的能力,参数越多的模型通常表现越好。该模型使用16000个英伟达H100 GPU进行训练,受益于新的训练和开发技术,Meta声称,Llama 3.1 405B在一定程度上可以与OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet竞争。
Meta高管表示,该模型主要用于为Meta内部和外部开发人员的聊天机器人提供支持,具备广泛的新功能,包括改进的推理能力,帮助解决复杂的数学问题或瞬间综合整本书的文本。它还具有生成式AI功能,可以通过文本提示生成图像。一项名为“想象自己”的功能允许用户上传他们的面部图像,然后生成他们在不同场景和情境中的描绘。
像其他开源和闭源生成式AI模型一样,Llama 3.1 405B可以执行各种任务,可以编程、回答基本数学问题,也可以用八种语言(英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语)总结文件。该模型目前仅支持文本操作,这意味着它不能回答图像问题,但大多数基于文本的工作负载(如分析PDF和电子表格)都在其能力范围内。
Meta表示,该公司正在尝试多模态模型。在周二发表的一篇论文中,公司研究人员表示,他们正在积极开发可以识别图像和视频并理解(和生成)语音的Llama模型。然而,这些模型尚未准备好公开发布。
与Meta之前的模型一样,Llama 3.1 405B可以下载或在云平台(如AWS、Azure和Google Cloud)上使用。它还在WhatsApp和Meta.ai上使用,为美国用户提供聊天机器人体验。
另外,Llama 3.1的上下文窗口(context window)涵盖128000个标记,比以前的Llama模型更大,大约相当于一本50页书的长度。
模型的上下文或上下文窗口指的是模型在生成输出(如文本)之前考虑的输入数据(如文本)。具有较大上下文窗口的模型,可以总结更长的文本片段和文件。在为聊天机器人提供动力时,这种模型也不太可能忘记最近讨论的主题。
Meta周二还推出了另外两个新的较小模型Llama 3.1 8B和Llama 3.1 70B,这两款模型是Meta在4月发布的Llama 3 8B和Llama 3 70B模型的更新版本,它们也有128,000个标记的上下文窗口。相比之下,以前的模型上下文窗口最大为8,000个标记。
Meta在论文中表示,Llama 3.1 405B的性能与OpenAI的GPT-4相当,在与GPT-4o和Claude 3.5 Sonnet的比较中取得了“混合结果”。尽管Llama 3.1 405B在执行代码和生成图表方面优于GPT-4o,但其多语言能力整体较弱,在编程和一般推理方面也落后于Claude 3.5 Sonnet。
在周二早上发布的一封公开信中,Meta CEO马克·扎克伯格描绘了一个未来的愿景,即AI工具和模型能够到达世界各地更多的开发者手中,确保人们能够享受到AI的“好处和机会”。
扎克伯格既捍卫自己的开源策略,又大规模投资AI。“我认为对于一个ai助手来说,最重要的产品特性将是它的智能程度,”扎克伯格在接受媒体采访时说道。“我们正在构建的Llama模型是世界上最先进的模型之一。”
扎克伯格补充说,Meta已经在研发Llama 4。
扎克伯格还表示,Meta的聊天机器人拥有“数亿”用户,并预计到年底将成为世界上使用最广泛的聊天机器人。他希望Meta以外的公司也能使用Llama来训练他们自己的AI模型。
Meta在AI上的投资非常大。扎克伯格表示,训练Meta的Llama 3模型花费了“数亿美元”的计算资源,但他预计未来的模型成本将更高。“未来这将需要数十亿甚至更多的计算资源,”他说。2023年,Meta试图削减一些未来技术和管理层的支出,裁掉了数千个工作岗位,这是扎克伯格称之为“效率之年”的一部分。但扎克伯格仍然愿意在AI竞赛中投入资金。
“我认为现在很多公司都在过度建设,你回头看时可能会觉得‘哦,我们可能都花费了更多的数十亿美元’,”扎克伯格说。“另一方面,我实际上认为所有投资的公司都在做出理性的决定,因为如果落后了,未来10到15年你将在最重要的技术上处于劣势。”
“如果AI在未来像移动平台一样重要,那么我不想通过竞争对手访问AI,”扎克伯格说,他长期以来对Meta依赖于Google和苹果手机和操作系统来分发其社交媒体应用感到不满。“我们是一家技术公司,我们需要不仅在应用层面上构建东西,还要在整个技术栈上进行构建。为此进行这些巨大的投资是值得的。”
此外,Meta还联合AI芯片领头羊英伟达周二宣布,英伟达AI Foundry将为全球企业定制Llama 3.1生成式AI模型,将他们的数据与Llama 3.1 405B和英伟达Nemotron模型结合,创建“超级模型”。
今年4月份,Meta告诉投资者,它计划今年的支出比最初的预期多出数十亿美元,其中一个核心原因是对AI的投资。据该公司发文称,到今年年底,预计将拥有约35万颗英伟达H100 GPU。
他还解释了Meta的开源政策的竞争力,公众可以免费使用Llama背后的技术,这将有助于使Meta的工作成为其他成功创业公司和产品的基础,从而使Meta在行业发展中拥有更大的影响力。
英特尔表示:“恭喜MetaAI!我们很激动能用Llama 3.1的发布来优化我们的AI产品组合。”
大部分网友对Meta表示祝贺,认为Llama 3.1是伟大的杰作,是开源社区的胜利。
也有网友质疑,规模如此巨大的模型,运行的时候要耗费多少电能?会对环境造成多大影响?