如何评价智源发布的1.75万亿参数、在“神威”上训练，全球最大预训练模型“悟道2.0”？

AI应用信息1年前 (2024)发布 XIAOT

作者：知乎用户
链接：https://www.zhihu.com/question/462701256/answer/1921178722
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

我来抛砖引玉一下。

那几个大模型发布的会议我在线上看了，对我个人来说，大模型的表现其实心理早有预估。主要还是看看学界和工业界的一些工作，以及大佬的对问题的一些看法。下面说一下几点我个人比较印象深刻的吧。

1.悟道系列有两个多模态模型，一个是基于双塔的，做的图文匹配。另一个是做的图像问答，图像评论一类的认知模型（但经过测试并没有所谓的“认知”能力）。这里主要想说的前者，文澜。文澜我觉得主要有两点可以说，一个是她建模的是图片和文字的强相关和弱相关能力（一般模型只建模了强相关）。这点其实是加强了模型的应用范围（比如可以用到chatbot，智能客服等语言表达更口语化的场合），也有助模型学习到所谓的世界知识。第二点是会场展示了文澜embedding和单模态模型的embedding上的聚类。以“王子”为例，单模态聚类出来的多数是“公主”，“国王”这一类，而文澜的聚类则聚到的是“帅气”，“花花公子”等词。一方面证明多模态学习到表示显著异于单模态。同时，文澜的聚类似乎更贴切（个人觉得），更偏向于形容词。

剩下那个“认知”的多模态模型，也就那样吧，该有的优点他全有，缺点也是。

2.Inverse prompting。这东西说复杂也不复杂，就是利用sample-rerank的方法提高生成质量，尤其是跟上下文的相关度。但与MMI和NSP这种处理方法不同的是他只需要语言模型本身，而不需要多搞一个模型。这东西让我记住的，是我觉得这货可能是可以充分利用大规模预训练模型的few shot和内部知识的能力的一个入口。

文章的做法大概是这样（以QA为例）先用prompt和beam search来生成答案，然后呢，就把“A是Q的一个回答”给回语言模型，让模型给这个东西打分，然后与beam search的打分做个加权，再进行排序。从实验结果来看，上下文的相关度确实有所提升，并且以往长文本生成容易产生的重复短语的问题也可以缓解（基本解决，但句子间的逻辑问题还是存在。）

但我们可以把思路拓宽点，比如他的Inverse Prompting是“A是Q的一个回答”，但如果把Inverse Prompting改成”A是Q的一个{属性}回答”呢?那是否可以进行属性的控制？当然这么做的话也有一些问题，比如候选的回复里面需要有对应的属性回复。存在更高效的属性生成方法等等。但是，有一些属性生成是few shot的呀，很难结合到现有的一些方法。比如对话中的个性人设。不会真的有人以为现在的个性对话，你问我多少岁，我告诉你我18岁就是个性对话了吧？真正的个性人设是蕴含在对话的方方面面，比如话题的选择，对某些命名实体的态度等等，而不是简单的针对profile进行问答或复述。后来我也在12层的GPT上做了相似的实验，这个方法可以约束一些比如跟性别有关的的问答，其他方面并没有太突出的成果。但简言之，我认为在特征工程，网络结构工程，loss工程后，prompt工程会是下一个研究热点之一。也可能是解决这些属性文本生成在few shot的情景上的一个方法。

3.就会场的信息来看，智源下次会公开一个对话生成方面（开放域）的大模型。就我个人而言，我特别好奇他们会怎么搞。因为开放域对话生成方面主要的几个大问题都珠玉在前：

问题1：安全回复，普通的DialoGPT是用概率采样的方法足够了。百度推出的Plato-2使用隐变量的方式也解决得很好，在DST9上开放域对话的表现已经足够出色了（剩下问题的都是硬骨头）。更何况Plato-2已经16亿参数，足够大了。

问题2：缺乏知识、常识。目前该领域的工作大多数是引入额外的知识做条件生成，但同样因为引入额外知识，（知识要和对话内容匹配）那么数据量基本不可能太大。

问题3：多模态开放域对话。微软STCA已经搞了。当然你搞个中文的也不是不行。