今天凌晨,微软带来了一系列重磅产品,一口气发布了 50 多项更新。
接棒 OpenAI 和 Google 掀起的 AI 科技月,微软不仅要和苹果等厂商争夺 AI PC 的定义权,Copilot 加持的 Agent 也要给 AI 公司们带来亿点点震撼。
发布会要点速览:
*Team Copilot ,从个人助理变成团队助理
*全新的 Agent 代理功能
*Phi-3 家族迎来新成员
*Azure AI Studio,包含 API 集成、完整的工具链及部署全家桶
*Fabric 大升级,推出实时智能(real-time intelligence)
*专为云端规模化应用性能优化的 Cobalt 芯片
Sam Altman 压轴登场,给了开发者两个建议,预告新模型
发布会上,微软 CEO Satya Nadella 谈到了关于现代计算的两个梦想。
「第一个是,计算机能否理解我们,而不是我们必须去理解计算机?第二个梦想是,在这个信息不断增长的世界中,如何处理关于人、地点和事物的信息,」
从 AI 基础设施的搭建,到模型产品的落地,微软在寻找答案的过程中,逐渐成长为一个全方位的 AI 解决方案提供商。
今夜过后,或许我们都得重新审视微软这个巨头。
Copilot 变身 Agent,开启一站式服务革命
昨天,Copilot 迎来了史诗级大更新,发布会上的 Nadella 更是为我们带来了「Copilot+PCs」的概念。
据 Nadella 介绍,Copilot+PCs 是指 Windows 笔记本电脑配置内置 AI 硬件并支持整个操作系统的 AI 功能,并被描述为「新一类 Windows PC」。
打开 PC 上的 Copilot,你会发现它开始具备「透视」屏幕能力,能真正理解屏幕上显示的内容,甚至给出相对应的建议。
比如,在你玩《我的世界》游戏时,它能化身游戏大师,不仅能用纯自然语言教你怎么打造一把剑,还可以通过「看到」你库存里的具体物资,给出精准的制作建议。
现在,微软还推出了 Team Copilot ,从个人助理摇身一变成为团队助理。
Team Copilot 预计将在今年晚些时候向企业用户推出预览版。
用户可以在 Teams、Loop、Planner 等协作工具中调用 Copilot:担任会议主持人,整理会议议程并记录会议要点担任群组协作者,帮助每个人跟踪项目进展担任项目经理,帮助确保每个项目顺利推进并且,Microsoft Copilot Studio 推出全新的 Agent 代理功能,让开发者能够根据特定任务和功能,构建主动响应数据和事件的「智能 Copilot」。
简单来说,基于这类新功能的智能 Copilot 能够理解上下文、进行逻辑推理、自我学习和求助,并且能够独立地管理复杂的业务流程。
例如,一个智能 Copilot 能够独立地管理一个电子商务平台的整个订单处理流程,从预测产品需求、自动补货、个性化客户推荐、处理订单和物流,到收集客户反馈并优化未来的服务。
在今天开场的主题演讲中,Nadella 说道:作为一家平台公司,我们的目标是构建从基础设施到数据、工具,再到应用程序可扩展性的最完整端到端堆栈,让您能够利用这项技术的力量来开发自己的应用程序。
微软表示将在 Copilot Studio 中添加 Copilot connectors,以简化开发者将其业务和协作数据连接到他们的 Copilots 的方式。
GPT-4o 成本暴降 12 倍,微软小模型碾压 GPT 3.5
微软是首家将 AMD 领先的 MI300X AI 加速器芯片用于客户 AI 训练和 AI 推理的云服务提供商。
不久前,OpenAI 推出了最新旗舰模型 GPT-4o,仿佛《her》走入现实,现在,该模型已在 Azure AI Studio 中以 API 形式提供。
小彩蛋目前 OPPO 正在将 Azure AI 语音转文本(speech-to-text)、快速转录(Fast Transcription)和 Azure AI 文本转语音(text-to-speech)技术在其新款智能手机上试点。
通过使用先进的 AI 加速器,如 Nvidia、AMD 和 Azure Maya,微软可以为各种 AI 应用提供高性能和低成本的解决方案。
例如,经过训练后的 GPT-4o 生成成本仅为原来的 1/12,响应速度反倒提高到原来的 6 倍。
现在,Azure ND MI300X v5 虚拟机系列也正式推出,针对高需求 AI,以及诸如 Azure OpenAI Service 的高性能计算(HPC)工作负载进行了优化。
并且,微软还宣布推出 Cobalt 100 Arm-based 芯片,性能提升可达到 40%。
此前,微软在官网开源了小语言模型(SLM)——Phi-3-mini,用以小胜大的实力在开源社区中取得了极大的反响。
Nadella 今天宣布,由微软开发的 Phi-3 系列新型多模态模型 Phi-3 Vision 、Phi-3 Small 7B、以及 Phi-3 Medium 14B,现在可以在 Azure 上使用了。
据介绍,Phi-3 系列模型功能强大、性价比高,且针对个人设备进行了优化。
其中,Phi-3-vision 支持输入图像和文本,并能以文本形式回应。
比如用户可以针对图表提问,或者对特定图像提出开放式问题。而 Phi-3 Medium 14B 的综合性能与 Mixtral 8x22B 和 Llama 3 70B 互有胜负,但却能做到几乎碾压 Command R+ 104B 和 GPT 3.5。
倘若你是开发人员,你现在可以在 Azure AI Playground 上率先体验这些模型,并允许自定义构建这些模型。
值得一提的是,可汗学院正与微软达成合作,利用开发的 Phi-3 小型语言模型家族的新版本,探索改进数学辅导的方法。
让 Windows 成为最开放的人工智能平台
为了更好地帮助开发人员,微软还与此前被曝出造假的 Cognition AI 达成合作。
作为协议的一部分,首个「AI 工程师」 Devin 将由 Azure 向客户提供服务,并支持代码迁移和现代化等复杂工作。
Microsoft Fabric 迎来升级,最新的实时智能(real-time intelligence)提供了端到端软件即服务解决方案,能够为用户提供实时的数据分析服务,帮助他们快速处理和响应海量且详细的数据。
举例来说,假如你是一家大型零售连锁店的 IT 经理,你需要实时监控各个店铺的销售数据、库存水平和顾客流量,以便快速做出决策,比如补货、促销活动或者调整员工排班。
那么在这种情况下,你可以使用 Microsoft Fabric 的实时智能功能来达到你想要的效果。在今天微软的 Build 大会上,该公司提供了有关 Windows Copilot Runtime 的具体工作原理的更多详细信息。
Runtime 包括一个 API 库,开发人员可以利用这些 API 来开发自己的应用程序,并提供 AI 框架和工具链,使其在 Windows 上发布自己的设备上模型。
微软昨天展示了其 Recall AI 功能,让很多人眼前一亮,但微软表示,开发人员还可以通过向其应用程序添加上下文信息来改进 Windows 的新 Recall 功能,提供了出现更多定制功能的潜力。
Satya Nadella 表示,Windows Copilot Runtime 是 AI PC 的重要里程碑,就像当年的 Win32 一样。
Sam Altman 压轴登场,给了开发者两个建议
在发布会即将结束时,Sam Altman 突然登场,与微软 CTO Kevin Scott 探讨了关于 AI 和开发者的关系,也谈论了最近发布的 GPT-4o,并预告下一个大模型即将面世,微软为此也准备了一台规模更大的超级计算机。
Sam Altman 认为:这可能是打造产品或创业最令人激动的时刻,因为我们正在经历自移动互联网以来最大的平台革命。
使用人工智能并不意味着能摆脱艰苦工作,开发者仍然需要付出巨大努力来创造出优秀的产品。
以下是 Sam Altman 和 Kevin Scott 现场对话的全文,APPSO 略作编辑:Kevin :你是这个星球上最忙碌的人之一,这是疯狂的一周。
过去一年半发生了巨大的变化,你觉得最让你感到惊讶的是什么?Sam :开发者一直是过去一年半所发生的事情的核心部分,他们正在做的事情非常惊人。采用速度、人才以及弄清楚如何利用这一切来构建产品的速度都非常快。当我们在 API 中推出 GPT-3 时,有些人觉得它很酷,但应用范围很窄。
然而,看看人们用 GPT-4 所做的事情,以及现在 GPT-4o 的应用情况,尽管它还很新,还没推出多久,但我从未见过一项技术在如此短的时间内以如此有意义的方式被如此迅速地采用。
所以,最重要的事情,听起来像是我能说的最无聊的一点,但我认为它实际上比听起来要深刻得多。模型会变得越来越智能。
如果你回看 GPT-3 到 3.5 再到 4 所发生的事情?它变得更智能了,你可以用它来做更多的事情。
它变得更稳健了,也变得更安全了,不仅因为模型变得更智能了,而且因为我们在构建其周围的安全工具方面投入了更多的工作。
它变得更有用了,但最根本的能力,这种令人惊叹的涌现属性似乎使我们实际上在整体上提高了模型的通用能力。这种情况将继续发生。
因此,当我们考虑下一步以及开发者将用它构建的那些令人难以置信的东西时,我认为这是最重要的事情。还要记住,速度和成本对我们也非常重要。
Kevin :你正处于一个充满开发者的房间,线上还有很多开发者在观看直播,你对他们的建议是什么,考虑到世界上正在发生的事情,你对他们有什么建议?
Sam :首先,现在可能是打造产品或创业最激动人心的时刻,我敢说自互联网时代以来,还没有见过如此令人兴奋的时刻。我们有很大的机会和能力去构建一些新的东西。
构建新事物并真正改变格局的能力,都是在平台变革的时代到来的。我们已经有一段时间没有经历过平台变革了,现在看起来我们正在经历这样的时期。所以,我最大的建议是,这是一段特别的时期,要好好利用它。
现在不是推迟计划或等待下一个机会的时候,这是一个特殊的时刻,在未来几年里,会有很多事情发生,许多伟大的新事物会开始涌现。
关于平台变革的第二点是,当手机革命开始或在 2008、2009 年真正兴起时,你会看到人们说:「我们是一家移动公司(mobile compan),我们有移动应用。」但仅仅几年后,没有人再说他们是一家移动公司,因为这已经成为基础标准。
(AIGC) 是一项了不起的新技术。但它并不能让你摆脱构建伟大产品、伟大公司或伟大服务所需要的艰苦工作,你必须付出这样的努力。AI 本身是一种新的推动力,但它不会自动打破商业规则。所以,你可以把它当作一个新工具来使用,但你需要开始思考如何在你所做的事情中构建持久的价值,很容易在淘金热的兴奋中忽视这一点。
以 Copilot 之名,再次发起冲锋
从 2023 年到 2024 年,无论你是否身处科技行业,或许都会感受到这一趋势:人工智能正在重塑我们的生活。
而每一次技术的突破,总是会带来生产力变革。PC 作为重要生产力工具,也在这一轮浪潮中也在面临巨大的改变,甚至是重新定义的可能——这就是如今不断被提及的 AI PC。
与普通 PC 不同的是,AI PC 往往需要三个方面的条件:其中首要的就是硬件。
去年 9 月,英特尔酷睿 Ultra 处理器,构建出了 CPU+GPU+NPU 协同计算的异构加速体系,为我们展示出下一代 AI PC 的底层逻辑。
其次是本地 AI 大模型,有了强大性能的 PC 才能支撑起本地大模型的流畅运行,从而为用户提供各种 AI 服务。最后是个人知识库,这不仅能有效保护数据与个人隐私,也为用户建立专属自己的个性化 AI 助手提供了支持,是让 AI PC 真正走向生产力的必要条件。
但对于 AI PC 的定义,微软早前就给出了它的三个条件:必须配备 NPU、CPU 和 GPU支持微软 Copilot键盘上直接配有 Copilot 物理按键三个条件中有两个围绕 Copilot 展开,而此次 Build 2024 中,微软更是有很大篇幅用在 Copilot 上,还推出了 Copilot+PC 的概念,足以见得微软对其重视。
这主要是因为微软对 Copilot 的定位并非简单的助手,而是「一种使用自然语言处理技术或大语言模型,帮助人们完成复杂或认知任务的应用程序或组件。」这也体现出微软的更多野心——打造一种新的交互逻辑,甚至是新的 AI PC 形态。
早在去年这个时候,Copilot 就已经出现在了微软几乎所有重要产品中,让 Bing、Office、Edge 等焕发出新的活力,并通过丰富的插件集使其成为一个综合了多种辅助功能的「接口」。
「无论是想要打开喜爱的音乐,还是预定机票、解答难题,都可以通过自然语言在 Copilot 实现」,再加上 Copilot 物理按键,以及 AI 加持下对自然语言的理解能力,使 PC 正在转变为一个真正的 AI 硬件。
正如它的名字一样,Copilot 正在越来越接近它目标中「副驾驶」的角色。此次大会上,微软则进一步为开发者提供了更好的开发环境,支持其构建属于自己的定制 GPT,带来了更大的灵活度和未来的可能性。正如浏览器可以看做互联网与人连接的「接口」,Copilot 也在成为 AI 与人连接的「接口」。
这一手棋,可谓是下在了重新定位 AI PC、掌握 AI 时代话语权的关键点上。还记得多年前,苹果曾通过一系列广告塑造了一组关于「Win boy」与「Mac boy」的形象。
Mac 这边穿着舒适面料的 T 恤,而 PC 这边则只是随便找件便宜西装了事,通过形象的直观对比,衬托出微软大公司作风、陈腐过时的印象,两者形成了鲜明的对比。
而当时的微软也确实以实际产品为苹果提供了不少素材,面对苹果的攻势尽显疲态,不过如今这一情况似乎正在悄然发生着变化。微软已经不再是那个穿着西装的「商务人士」,反而更像是一名「战士」,带领众厂商一同,以 AI PC 之名,吹响了与 Mac 的正面交锋的号角,
正如周一 Nadella 在接受采访时表示的那样:
苹果在多个方面都表现得极为出色,我们现在正期待 Windows 与 Mac 能够重新展开真正意义上的对决。
一场好戏已经缓缓拉开帷幕……