“很多人将规模定律(Scaling Law)奉为圭臬,认为只要数据越多、算力越强、模型参数越大就行了。但我认为,要实现通用人工智能,仅靠数据是不够的,我们需要探索另外一种路径——为人工智能立‘心’。”近日,在湖北鄂州召开的莲花山研究院二十周年学术思想研讨会上,北京通用人工智能研究院院长朱松纯分享了他的思考。他认为,通用人工智能已成为全球科技竞争制高点。要在科技竞争中取得突破,关键是厘清大数据源头,定位好人工智能发展方向。
“如果无法处理视觉数据,人工智能系统就只剩一个空架子。”在朱松纯看来,数据标注就像为计算机戴上一副特殊的“眼镜”,让其具备识别并理解图像、文本和其他数据细节的能力。
1997年,斯科特·科尼什(Scott Konish)完成了世界上第一个数据集的标注——图像边界,用来训练分类器。也正是看到了统计对图像理解的可能性,2004年朱松纯开启大规模高颗粒度数据标注工作。
“2008年,我和团队成员在数据标注上遇到两个瓶颈。”朱松纯告诉记者,其一,价值、因果、意图等要素潜藏于感知数据表象之下,无法被传感器直接探测,更难以标注;其二,数据标注的过程与特定任务高度相关,不同任务要求不同的标注方法,继续扩大数据或模型规模,仍然无法提升泛化能力。这让朱松纯对通用人工智能有了更深入思考。
那么如何探索通用人工智能这条道路呢?朱松纯认为,人工智能研究需要由“理”向“心”转变。“理”是数理模型,“心”是认知架构、价值对齐。
“经过近30年发展,人工智能多个核心领域已然呈现对内融合、对外交叉的发展态势,朝着通用人工智能方向推进。”朱松纯说,在融合过程中,必定会形成统一的人工智能架构,以实现从解决单一任务为主的专项人工智能向解决大量任务、自主定义任务的通用人工智能转变。
在朱松纯看来,为机器立“心”,实现由“理”到“心”的过渡以及从大数据到大任务、从感知到认知的飞跃,是未来10—20年的学术前沿,也是智能学科需要承担的核心使命。