近日,中国初创企业DeepSeek开发的大语言模型(LLM)DeepSeek-V3引发美欧业界广泛关注,该模型在技术性能、开源模式、成本效益等方面的突出表现获得积极评价。开源的DeepSeek-V3是全球AI生态的一次重要变革,有助于美国之外的国家和地区在AI领域自主发展,推动全球AI技术向更加开放、多元和高效的方向迈进。
多项指标媲美顶尖模型
根据测评机构Artificial Analysis的独立分析,DeepSeek-V3可与世界顶尖的AI模型竞争。在文本理解、编码、数学和学科知识方面,DeepSeek-V3优于Meta的Llama 3.1-405B和阿里巴巴的Qwen 2.5-72B等开源模型,并在性能上和世界顶尖的闭源模型OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet不分伯仲。DeepSeek-V3在中文处理、编码和数学计算等方面的优势,使其在教育和科研领域具有巨大潜力。
DeepSeek-V3的开发和训练成本也明显低于其他大模型。OpenAI创始成员之一安德烈·卡帕蒂强调了这种非凡的效率:像DeepSeek-V3这样性能和级别的模型,通常需要1.6万到10万个GPU的集群来训练,而中国初创公司仅用了2048个GPU在57天内便完成了训练。其成本约557.6万美元,仅为其他主流模型(如GPT-4)的1/10左右。
另一方面,媒体则关注了所谓的“AI污染”、隐私保护和安全等问题。随着互联网上AI生成内容的泛滥,AI模型在训练过程中会产生“幻觉”或误导性答案。DeepSeek-V3的案例凸显了在AI生成内容日益普及的背景下,如何确保训练数据的纯净性和可靠性是个亟待解决的问题。
开源策略改变AI生态
DeepSeek之所以能实现巨大的效率提升,关键在于其算法、框架和硬件的协同设计。在美国企业AI模型的开发费用越来越昂贵之际,DeepSeek-V3的出现表明,即使没有数十亿美元的预算,也能开发出顶级AI。这对预算有限的企业和研究机构来说是个好消息。这种高效训练方法被媒体称为“AI领域的范式转变”,这在当前算力紧张的背景下尤为重要。
此外,DeepSeek-V3的开源策略也受到业界热烈欢迎。像OpenAI这样拥有大量用户的公司收费高、不开源,却仍然亏损数十亿美元;而DeepSeek-V3以更便宜的价格提供顶级模型,而且还是开源的。这样低的开发成本和激进的定价政策,让很多AI企业倍感压力。长远看,这将冲击到美国科技巨头在ai市场的主导地位。
DeepSeek-V3证明了开源模型在性能和成本上已具备与闭源模型竞争的能力。这将促使更多企业重新评估其技术策略,尤其是在开源与闭源模式、硬件依赖与软件创新之间的平衡。这有助于推动AI生态向更加开放的方向发展,促使更多企业加入开源阵营,为全球AI社区提供宝贵的资源,进而促进AI技术的普及。
突破“小院高墙”式封锁
近年来,中美之间围绕AI进行了激烈竞争。美国试图通过日趋严苛的芯片出口禁令来限制中国AI的发展。1月13日,美国又推出新一轮AI芯片出口限制措施,希望将AI技术的发展集中在所谓的“友好国家和地区”,防止先进芯片流入“对手”国,并为全球AI发展设定美国标准。美国相关政策的制定者想当然地认为,除了美国以外没有国家可提供高端GPU芯片及相应算力,或是研发出替代算法和产品。然而,DeepSeek-V3的出现证明,美国“小院高墙”式的封锁终将被技术创新所击溃。
事实证明,美国的各种限制措施反而催生了中国在算法和架构上的创新。中国的芯片技术在一步步提高,ai应用领域的创新更是取得了明显进步。DeepSeek-V3为中国AI生态的发展提供了新动力,也有利于全球AI技术向更加开放、多元和高效的方向迈进。
反观欧洲,虽然各国政府高度重视AI技术和产业发展,但欧洲在AI发展过程中过于依赖美国大型科技公司的投资和技术支持,导致技术主权和市场竞争力被削弱。AI在推动新一轮科技革命和产业变革中的地位日益凸显。对于倡导技术主权的欧洲来说,推动本土AI技术的发展,减少对美国的依赖,或许才是欧洲AI可持续发展的关键。