接管人类设备的AI Agent(智能体),曾经只是科幻片中的设定,今天却已成为股市中的热点。
就在10月23日,美国AI大模型公司Anthropic推出全新Claude 3.5 Haiku和升级版Sonnet。Sonnet带来了全新AI体验“计算机使用”,它可以像人类一样操作电脑,例如查看屏幕、移动光标、点击、通过虚拟键盘输入等。
两天后,智谱AI紧随Anthropic步伐,发布了AutoGLM,其目标明确,也是以个人助理身份“掌控”用户手机。它可以独立执行微信互动、外卖下单,甚至抢红包等个性化任务,主要针对微信、淘宝、美团、小红书等App中的用户常用操作。
这两款产品代表着AI从聊天机器迈入使用工具解决问题的阶段,让AI智能体逐步向现实中的实用化产品迈进。
这股ai agent潮流随即引发了资本市场的震动。
资本市场的迅速响应,反映了对AI Agent的商业化前景充满期待。但从本质上看,由于相关应用仍处于市场早期,这一波涨停潮还无法排除市场情绪与投机属性。
AI Agent究竟是未来科技的长期趋势,还是短期风口?
从技术上来看,主打“Computer Use”(计算机使用)和“Phone Use”(手机使用)的AI Agent的崛起,标志着AI的发展从单一语言理解,逐渐扩展到复杂的任务执行。
Anthropic的Claude Sonnet和智谱的AutoGLM不仅会处理自然语言对话,还能直接控制用户的设备执行具体操作,这是人机交互的一个新阶段。Anthropic的Sonnet演示显示,其可以应对代码编写、数据分析等任务,甚至可以在出错时尝试不同解决方法,这种灵活性表明AI开始具备一定的“执行力”。
智谱的AutoGLM则重点落在了手机场景中。通过OCR技术理解UI组件,以及通过链式思维训练理解组件功能,AutoGLM能够识别用户手机屏幕上的不同组件,理解其功能,从而按指令执行,如自动化微信互动和电商下单等操作。
不过,这类产品在用户体验和商业化上仍存在局限性。
虽然AutoGLM让手机操作更智能化,但也引发了对隐私和安全问题的担忧:用户是否会因便利性而放弃部分隐私保护?此外,AutoGLM目前仍然需要明确的指令,并在跨平台适配性和操作精准性上有所限制——要实现真正无缝的自动化,还需持续优化。
就真正的“智能”而言,AutoGLM也还有进步的空间。例如,中信建投证券在研报中指出,在官方演示视频中,AutoGLM在下单瑞幸咖啡时支付了18元以上,有着明显的溢价,似乎还没有掌握这些品牌复杂的“抢优惠券”玩法。
在具体的商业化落地上,9月,智谱和荣耀成立了AI大模型技术联合实验室,让行业看到AI Agent在终端应用上的落地潜力。但由于支持这一功能的手机品牌有限,真正的大规模应用仍需时间。据IDC预计,2027年,中国市场AI手机和AI PC的市占率将分别超过50%、80%。
从科技巨头们的布局动作来看,AI Agent的确是大模型领域的重要战场。
根据公开信息,OpenAI预计年底将推出自己的AI Agent软件Orion,而苹果也将于下月在iOS 18.1中加入Apple Intelligence。微软开源了屏幕解析工具OmniParser,可以完成自动订票等功能。谷歌的Geimini 2.0则有望在12月推出,同时正在开发同类新项目“Project Jarvis”,能将Chrome网页任务自动化。
这意味着,AI智能体不断从实验室产品走向大众应用,其身后的巨头们也在加紧占领市场。
硅谷的风投趋势显示,越来越多的公司正从AI基础设施转向应用层面,更垂直细分的ai应用处于蓬勃发展态势。但当前AI Agent技术还面临挑战,如跨平台操作能力不足、对指令依赖较大、个性化体验有待优化等。要想彻底打入主流市场,AI Agent不仅要在功能上更加完善,还需在隐私和数据安全上取得公众信任。
短期来看,AI Agent的应用范围仍然有限,但其带来的高效和便利有足够吸引力。一旦技术和隐私问题得到解决,AI智能体将有更大机会推进人类生活中的智能化应用。