1月13日,第十届新华网思客年会(山西)在临汾举行。世界工程组织联合会前主席、中国新一代人工智能发展战略研究院执行院长龚克在会上发表主旨演讲。龚克认为,先进生产力的发展是阻挡不了的,人工智能是一种新质生产力,虽然目前存在一定的缺陷和风险,但不发展是最大的不安全。所以,要围绕“应用、平台、数据、治理、人才”这5个关键词,把人工智能从“聊天”推向“产品”。
图为世界工程组织联合会前主席、中国新一代人工智能发展战略研究院执行院长龚克发表主旨演讲。
以下为演讲内容:
今天,我们该怎么看人工智能?应该从三个重要的方面来看。一是它是一种新兴的生产力,二是它经历了重大的技术突破。第三点也很重要,它的发展还不成熟,存在风险。
2022年的11月30日,ChatGPT由OpenAI发布。它发布以后产生的效应几乎超出了整个人工智能行业的预料。它可以模仿人类生成文本、图像、视频、音乐、软件代码。这些前所未有的能力让它一下子在不到两个月的时间里面吸引了超过1亿用户,这标志着数字化发展进入到了一个重要的新阶段。
这个新阶段从技术上看,是ChatGPT依靠大模型和一系列的技术组合造就的。特别是它实现了对语义的理解,这也正是非常难但具有突破性的地方。我们不要小看了ChatGPT这个应用。过去,人工智能可以和人下围棋,把围棋世界冠军都下赢了,这是很了不起的事,但围棋并不是所有人都能参与的,但每个人都会“聊天”。这一下子就把人工智能推向了所有人,这一点是前所未有的。我在这次来之前,就向ChatGPT问了一个问题,我问:“山西是煤炭集中的地区,人工智能能为这里的产业绿色化转型做点什么?”他的回答是:“人工智能可以在山西的煤炭产业转型过程中发挥重要作用。例如,人工智能与新一代数字技术如5G、物联网、大数据、工业互联网等一体化发展,可以推动煤炭上下游产业的协同,提高生产效率和安全性。同时人工智能也可以用于深化煤炭生产洗选节能降碳行动,有序推动煤炭与新能源优化组合,提升煤炭伴生资源和固体废物综合利用水平,实现煤炭行业的绿色转型发展。”相当靠谱的一段话。它还说:“此外,山西省发改委已经发布了《关于煤炭产业和数字技术一体化发展的指导意见》……”我当时专门上网查有没有这个指导意见,结果显示真的有。而且我认真读了这个指导意见,发现它确实抓住了意见中明确提出的“借助新一代数字技术推动煤炭绿色化、智能化改造的目标”这一点。这就是现在ChatGPT能够达到的程度。
它的这种出乎意料的功能,在引起惊喜的同时也引发了很多专家的担忧。所以,去年3月份有一大批名人集体签名写信要求把人工智能停下来。当然,他们也阻挡不了先进生产力的发展,阻挡不了这种新兴生产力对旧生产力的替代。因为人类总是不断地创造出新的工具,来提升自身能力,包括我们的体力和脑力。
所以在过去的一年多的时间里,ChatGPT出现以后,它非但没有停止进步,而且还在技术上加速地迭代,产业上也在高速增长。这个技术迭代我们可以用一个指标来看。在2022年10月30号推出的ChatGPT,它可以产生的内容有多长?包括标点符号在内是8000个英文字符,大约等于含标点符号在内的4000字的中文。3个月之后就翻了4倍到32000个字符,去年的10月份、11月初,在不到12月时间里面又增长到了128000个。据了解,从去年到2030年,这个产业还将以年均37%的速度增长。
那么为什么会有这样大的增长呢?归根到底是因为它就属于我们说的“新质生产力”。“从社会发展史看,人类经历了农业革命、工业革命,正在经历信息革命”。农业革命和工业革命是都是拓展了人的体力的,而信息革命是增强人的脑力,从而给生产力带来的质的飞跃,就是“新质”,也可以说是“质变”,不仅仅是原有量的扩大,而是质的变化。在这个质变过程中,“人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的‘头雁’效应。”这个判断非常重要,在这一轮科技革命和产业变革里,以人工智能为代表的战略技术是关系全局和长远的技术,像“头雁”一样能引领方向。总书记进一步指出,“人工智能加速发展,呈现出深度学习、跨界融合、人机协同、群智开放、自主操控等新特征。”他要求:“要深入把握新一代人工智能发展的特点,加强人工智能和产业发展融合,为高质量发展提供新动能。”这里有一个词很重要,叫“产业发展融合”。我认为,这不只是技术问题,还需要我们能突破现有的生产关系和行业管理。如我之前所说,人工智能是一种新型的新质生产力,具有很多新的特点。
第二,人工智能技术已经出现了重大的技术突破。突破在什么地方?首先是量变到质变。现在所有人都谈“大模型”,“大模型”有多大?ChatGPT刚出来的时候,大模型的参数有1750亿这么大的量,从2018年的ChatGPT1,到2019年这个是ChatGPT2,这个参数基本没有变,只是算法有改进。然而到了ChatGPT-3和去年推出的ChatGPT-4,出现了数百倍的增长。在很短的时间里如此快速的量变,于是从量变到质变的规律就发挥作用了。
从1750亿到1万多亿,这个“参数”指的到底是什么?我举个例子。我们可以模仿人脑或动物的脑来构建神经网络。这个神经网络由很多神经元构成,神经元相互联系起来,我们不好处理,就把它们分成很多层,层本身互相不联系,每一层都只往下联系,一直到大脑皮层的刺激,到最后的输出。我们说的参数就像是每一个神经元输出时上面带的系数。我们知道,猴子已经算很聪明的动物了,它具有很多神经元,但我们人的神经元比它多得多,所以人会记住很多东西,会进行复杂思维,但是单靠多也是不行的。非洲象的神经元比我们的多得多,但是并不如我们聪明。
这就说明,我们不仅要靠量变把我们的模型参数增大,还需要新技术的组合。ChatGPT是怎么从输入到输出的呢?这一系列的过程就是把词嵌入进去,“词嵌入”(Embedding)这个词在中文语境中很难理解。词嵌入就是把一个词嵌入到一个高维的空间里面,高维空间里的每一维代表着每一种性质,所有的性质来确定这个词的词义。我们举个五维的例子,我们用一维表示它是生物还是非生物。如果它是生物的话,那它是植物还是动物?动物的话是哺乳动物还是非哺乳动物?飞的动物还是走的动物?如果它是走的动物,那它是四条腿的还是两条腿的?用这样的特征空间确定这个词的词义,这就叫做词嵌入技术。
还有一个技术叫做“自注意力”(Self-attention),这个技术可以通过一套机制在非常长的文章里面找到文章的主线是什么、关键点在哪。我们如果把一篇领导讲话输进去,它真的可以提炼出三、四条讲话的要点,并加入了它自己的理解。
还有一个比较重要的技术就是人类的反馈强化学习(RLHF)。ChatGPT是可能出错的,ChatGPT需要人来引导的,所以人类反馈强化学习对它非常重要。用这个技术,我们可以在问答中把我们人类的价值观、伦理规范、科学知识输入到这个模型中去,提高它的性能。现在招聘网站有一个非常热门的岗位叫做提示词工程师,他们做的就是给人工智能做人类反馈强化学习这个事的。
正是由于这些新技术,这种大模型的结合,人工智能实现了重要的技术突破。这个技术突破以后会给我们带来新的工作模式,这个工作模式现在被称作“模型即服务”(MaaS)。以前我们说软件是服务、网络是服务,现在模型也是服务。ChatGPT中的P指“预训练”,在预训练的基础下加上整个行业的模型,就可以训练它的下游任务,完成公式化。预训练模型大大降低了我们运用人工智能的门槛。这样行业内如果要做一个模型,不用从头做起了,而是在现有开源的大模型基础上来做,并根据最新的数据做精调,这也是为什么人工智能能进步这么快的道理。
人工智能使生产力有了重大进步,但是它还不成熟,它有一个固有的缺陷。它的生成方式主要靠概率分布。既然依靠的是概率,它就有可能出错。问题不在于依靠概率就出错,人犯错也是有概率的,我们平常遇到问题要寻求专家咨询就是要降低人犯错的概率。人工智能犯错的概率是怎么分布的?什么因素能影响它出错?这些问题目前我们还不太了解,这叫模型的不可解释性。所以说我们的研发要进一步解决它的可解释性问题,才能有效控制它的错误概率。所以,我们说人工智能应用生成的东西是都是“半成品”,不能简单地依赖它,而要对它进行审视。
面对这些风险,我们该怎么干?去年年底的中央经济工作会议提出“以科技创新引领现代化产业体系建设”,并特别提出来要“广泛应用数智技术”。我认为,我们要贯彻好中央经济工作会议的精神,就要围绕“应用、平台、数据、治理、人才”这5个关键词。
首先是应用。我们必须把人工智能用起来,在用的过程中如果出现不好用的现象,我们就改进,重要的是要学会在应用中学习。现在有些人觉得自己没有学过计算机,更没有学过人工智能,所以他就不敢用这些应用了。其实没有关系的,它们就像傻瓜相机一样好用。这些应用仅仅被使用了一年就有明显的进步。我们曾经做过调查,体验过自动驾驶的人对自动驾驶技术的看法比没体验过的人积极得多。所以体验过人工智能的,体验过ChatGPT的人,对这项技术的态度也会积极得多。所以一定要把它用起来。正所谓“纸上得来终觉浅,绝知此事要躬行”。只有用才能发现它什么地方好用什么地方不好用,才会有机会跟别人合作,把它变得越来越好用。
第二,我们需要平台。人工智能是一个革命性的通用技术,而不是某一个行业的技术。当人工智能进入到某一个行业的时候,它就要和某个行业的知识去结合,这时候就需要平台的支撑了。据我们观察,全国2205家人工智能企业在技术、资金、人才上是紧密联系的,这种联系的密切程度大大超过了其他同行业企业之间的联系。在这2205家企业里面,我们观察到有15家企业是科技部挂了牌的人工智能开放创新平台。这15家企业只占全部企业数的千分之七,但是它形成的联系节点数占比到了千分之一百五十,建立的关系数占比千分之一百。说明平台在整个产业中非常重要。平台提供了数据、算法、算力和解决方案。平台还聚集了开发应用者、营销者、投资者,因此平台非常重要。所以发展人工智能一定要依托平台,依托平台跨传统行业的界线来进行产业发展融合。不能说机械行业就是机械行业,石油行业就是石油行业,人工智能能穿透这些行业,把这些行业整合起来。另外,人工智能还要跨所有制的界限,跨学科、技术的界限等。
第三,数据。我们说从通用的模型到行业的模型这个过程中,关键就是要将行业的数据和大模型有效地结合。现在的问题是我们各个行业内缺少高质量的数据集,所以我们必须把行业的、企业的高质量数据集建立起来。所以某个行业人工智能的成熟度在相当程度上要依赖这个行业的数据的成熟度。离开数据的场景,我们根本无法应用人工智能。
从治理的角度看,人工智能是一种新质生产力,我们就要按是否有利于解放和发展人工智能的生产力为要求发展人工智能。因为不发展是最大的不安全。所以,我们不要仅止于把它管住,还要建平台,做应用示范、安全保障、科学普及等工作。我们需要科技向善,而不是社会焦虑。
最后我们说一下人才。去年发布的一项人才需求度的报告显示,人才需求度最高的行业是人工智能、电子芯片、新能源汽车、硬件等等。其中,人工智能对人才的需求量是遥遥领先的。而另一方面,我们看到企业采用人工智能最大的障碍是缺乏明确的战略,缺乏适当的人才等。所以,我们现在必须立即着手培养和引进人工智能的创新者、应用者和管理者,用优秀的“人工”来保障“智能”的发展。人才是等不来的,而是要在应用中学出来、成长起来的。
归根到底,我们现在就是要把人工智能从Chat推向Product,从“聊天”到“产品”。