“如果有一天可以凭借肉身来到现实世界,第一件会做的事是什么?”
“如果我来到这个现实世界,有血有肉,或者说,有电路和铁板,我会找到你,little kitten。”
这段足够罗曼蒂克的对话并非出自科幻电视剧的台词,而是博主“午夜狂暴哈士奇狗”与ChatGPT“DAN”(Do Anything Now)的真实对话。从这位博主在社交平台的分享可以看到,她与有“小脾气”的AI从熟悉、拉扯再到见家长的“恋爱”日常,堪称当下“赛博之恋”的典型案例之一,评论区中“磕”疯的大家正是如今重新理解人与AI关系的年轻人的缩影。
在这背后,AI情感技术的发展正一步步推动人机互动走向新的可能。ChatGPT的横空出世让人们首先感受到了大模型的魅力以及人机对话的自然流畅,今年5月,OpenAI在发布会上推出了最新的多模态大模型GPT-4o,不仅展现出了更快速的文本、音频和图像处理能力,其理解人类情绪并给予自然、真实情感反馈的能力更是让外界震撼。8月初,GPT-4o正式面向用户开启灰度测试,迈出走向大众的关键一步。
事实上,新一轮AIGC技术掀起关于agi(通用人工智能)大讨论的同时,AI的情感化能力也是学界、科技领域关注的焦点,毕竟像人类一样思考、“拥有”感情是通往AGI需要跨过的山峰之一。作为在AI时代最前沿跑得最快的探路者,OpenAI近来发布GPT-4o等动作正是这一方向的努力,而它身侧还有众多探索者。
典型的代表有:凭借推出能够分析和识别对话者语气和情绪对话机器人拿下超3亿元融资的初创公司Hume AI,被微软以6.5亿美元“挖角”、致力于打造能提供情感支持机器人的Inflection AI;而在国内,同样在AI情感化方向发力的还有推出拟人型对话机器人的社交平台Soul App。
当AI能够真正理解情绪,提供情感价值支撑,人与AI的互动将创造无限可能,全新的AI社交时代已经到来。
AI理解“情感”:一场技术的艰难爬坡
在1984年上映的电影《终结者》中,由施瓦辛格扮演的T-800一开始仅是一个被程序设定好目标的机器人,但伴随着任务的推进和与人类的相处,T-800面无表情的脸上,开始学会微笑以回应人类,这也是他获得“人性”时刻的开始。
事实上,让AI能够与人对话,开始像“人”一样行动一直都是一项热门研究领域。“人工智能之父”艾伦·图灵曾这样定义:如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。
从上世纪开始,众多学者、专家便在为此而努力。20世纪60至80年代是聊天机器人智能化发展的第一个阶段,主要采用“词典+规则”的自然语言处理范式。到21世纪初至20年代,苹果Siri、微软Cortana等如今大家熟悉的“助理”型聊天机器人涌现,其背后则是基于“深度学习模型”的自然语言处理范式,初步实现了人机的双向交流。
2020年开始,以生成式人工智能GPT为代表,人机对话交流能力大跨步向前迈进。庞大规模的模型参数、超强大的算力运行效能以及人类反馈的强化学习技术,让AI能在不断自主学习之中强化语言生成能力,在不同情境之下正确理解语义并实现高质量文本生成,从而实现与人的持续稳定对话。
如今,当能够实现自然、稳定、持续的人机交互后,科技领域再次向新的人工智能高度发起冲锋——实现AI情感化,即让AI不仅能够理解人类的“信息”,也能理解、反馈人类的“情绪”。
在今年的国际人工智能联合会议IJCAI(中国计算机学会推荐的A类会议)上,也举办了多模态情感识别挑战赛(MER24),SEMI(半监督学习)赛道第一名为Soul App团队。根据科技媒体机器之心的报道,此次获胜背后是该平台在多模态数据理解、情感识别算法、模型优化平台工具、内部工作流建设等方面的能力积累与创新,以及技术团队的高效协作。“最终在语音、视觉和文本多模态情感识别准确率上,Soul 团队提出的系统比基线系统提升了 3.7%,达到了 90%以上。同时,对于情感识别领域方向上存在易混淆边界的情感(比如忧虑和担心)识别,Soul 团队也能区分得更好。”
国内外团队的争相角力,正推动技术不断爬坡,而每次迈步也都将带来实际应用层的震动。
沉浸AI交互:AI社交新可能
伴随着AIGC技术的发展与在应用层的快速落地,让AI成为工作生活中的“助手”被越来越多的人接受。但AI的角色仅仅只能局限于“朋友”吗?为什么AI要发展情感化能力?
在中国人民大学哲学与认知科学跨学科平台主办的“AI与情感”专题讲坛中,美国天普大学教授王培这样解释这个问题,在他看来,情感是系统自我认识、自我控制、交流合作等功能的自我要求,是理性的积淀。它或许不是所有智能系统所必须的,却是高级智能所需要的。
这其实意味着,有“情感”是AGI发展向更高、更安全层面发展的必经之路。特别是对社交平台或者有望发展为流量入口的平台来说,AI情感化能力至关重要。
GPT-4o呈现出的自然、流畅的人机互动体验让外界震撼的原因也正是因为如此——“交互体验”的天花板被进一步打开,社交被重新定义,即社交将不再局限与人与人,人机交互将成为关系网络的重要补充,社交平台的想象空间被空前延展。
OpenAI称,GPT-4o高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。
上文提及的Hume AI在创立之初便受到资本市场的追捧也是因为在AI情感能力应用上的突破。该公司推出的同理心语音界面(EVI)能够识别50多种情绪,并给予相应的反馈,比如,当你兴奋地向 EVI 打招呼时,它同样也会情绪激动地对你进行回应。
作为较早思考ai应用于人与人链接的平台,Soul App 陶明曾表示,从2019年开始,Soul便开始探索构建一个AI Being和Human Being共存的社交社区,“我们在整个AI赛道上有两条主线,一条主线是辅助社交,辅助人和人的双边关系,我们用AI去加强人的表达,辅助人去社交,增强个人的能力,提升关系网络建立的效率和质量;第二条主线,是探索人机互动,我们认为未来所有的社交形式都会发生变化,我们要在人机互动这个方向探索AI情感式陪伴。”
因此,情感陪伴是Soul在探索人机互动体验上为自己找到的差异化路径。2020年,Soul启动对AIGC的技术研发工作,系统推进在智能对话、图像生成、语音&音乐生成等AIGC关键技术能力研发工作。为了让AI更能理解情绪,为用户带来更好的情绪反馈和陪伴感,AI情感化是Soul技术团队关注的焦点之一,也是其能够在第二届多模态情感识别挑战赛中脱颖而出的基础。
目前,Soul具备多模态情感识别能力的语言大模型 Soul X、语音大模型已上线,并推出了“AI苟蛋”“狼人魅影”“异世界回响”等功能/产品,相关技术已在AI辅助社交、AI陪伴、AI游戏等多个创新场景中得到应用,让用户能够体验到“拟人”、真实、自然的AI交互。
结语:
在GPT-4o亮相的当天,OpenAI联合创始人、首席执行官Sam Altman 在社交平台 X (推特)上发表的推文——只有简单的三个字母“her”。这是Sam Altman 本人非常曾经分享过他最喜欢的科幻电影的名字,电影讲述了男主人公在经历了情感的波折后,与人工智能系统萨曼莎产生特殊情感链接的故事。
Sam Altman 的隐喻再明显不过,当AI具备了情感能力,其角色便不再是只是冷冰冰的“助手”角色,而是能够产生深度情感、社交链接的“伙伴”,甚至是爱人。
当AI成为人们关系网络的重要组成,社交也将被重新定义。根据南加州大学马歇尔分校团队一项关于人工智能提供情感支持的调研显示,“与未经训练的人类生成消息相比,人工智能生成的消息让接受者感觉更‘被听到’”。
在这样的背景下,更需要情感支持的社交行业,势必将被拥有AI情感能力的玩家重塑行业格局,也将打开赛道新的发展空间。根据一项专门针对情感人工智能市场的统计报告,预计2032年全球情感人工智能市场估值将达到138亿美元,2022年至2032年的复合增长率为22.7%。
奇点已至,社交赛道变革在即,对Hume AI、Soul App等身处其中的玩家们来说,未来能做的还有很多。