——吴晓波
所有的产品都值得用AI重做一遍。
——钉钉总裁叶军
从小模型到大模型
吴晓波:欢迎叶军博士,今天请他来聊聊ChatGPT、大语言模型(LLM)和AIGC(人工智能生成内容)。
我第一次知道AIGC是在去年年终秀前,那时候ChatGPT 3.5刚发布,一家股票软件公司的CTO跟我讲,有一个ChatGPT,你输入一段需求,它会帮你编程,你输入一段话,它会帮你写个小作文。我当时就很吃惊。
很多同学没有用过或听过“大模型”。就像阿尔文·托夫勒在data前面加了一个big,发明了“大数据”这个概念。现在的“大模型”,和模型有什么区别?
叶军:我们最熟悉的是进小区时识别车牌的系统,车开过来,杆抬起来,那个可以理解为一个小模型。大模型对更大量的数据做识别,训练的算法跟之前的算法不一样。
因为车牌毕竟只有几个字母,训练模型会容易一些。你可以把一个模型想象成一台洗衣机、一个面包机等等。像车牌识别的模型,只能干一件事情。
而大模型能力更强,输入大量的数据,参数级别上千亿。可以把公开的数据、信息输给它,它不断进行神经网络的建模。算完以后,把分析结果存下来,下次再有输入的时候,它拿这个模型来处理一下,给你一个输出。如果结果不对,你还可以纠正它,不断优化。
那我们中国的公司,在做大模型数据输入的时候,会因为一些意识形态、某种原因,没有办法拿到吗?还是说我们可以利用人类全部的知识存量?
叶军:这是一个很关键的问题,对大模型来讲输入很重要。输入什么样的资料,决定了训练出来的结果好不好。
很难有人拿到人类全部的知识,各家都在想尽办法找到更好的语料。有些专门训练图形生成的,像国外做得比较好的Midjourney(MJ)、开源的Stable Diffusion,是基于几亿张图片来训练,训练的语料就很重要。
吴晓波:国内外现在很多大大小小的公司在做模型,你觉得这时候企业原来的能力,比如算力、服务器能力、技术能力的支持性有多大?
我为什么问这个问题呢?因为MJ只有11个人,一年营收1亿美元。是小公司有颠覆世界的可能性,还是大公司在未来机会更大?