如何评价智源 发布的1.75万亿参数、在“神威”上训练,全球最大预训练模型“悟道2.0”?

AI应用信息10个月前发布 XIAOT
88 0
作者:知乎用户
链接:https://www.zhihu.com/question/462701256/answer/1921178722
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

我来抛砖引玉一下。

那几个大模型发布的会议我在线上看了,对我个人来说,大模型的表现其实心理早有预估。主要还是看看学界和工业界的一些工作,以及大佬的对问题的一些看法。下面说一下几点我个人比较印象深刻的吧。

1.悟道系列有两个多模态模型,一个是基于双塔的,做的图文匹配。另一个是做的图像问答,图像评论一类的认知模型(但经过测试并没有所谓的“认知”能力)。这里主要想说的前者,文澜。文澜我觉得主要有两点可以说,一个是她建模的是图片文字的强相关和弱相关能力(一般模型只建模了强相关)。这点其实是加强了模型的应用范围(比如可以用到chatbot,智能客服等语言表达更口语化的场合),也有助模型学习到所谓的世界知识。第二点是会场展示了文澜embedding和单模态模型的embedding上的聚类。以“王子”为例,单模态聚类出来的多数是“公主”,“国王”这一类,而文澜的聚类则聚到的是“帅气”,“花花公子”等词。一方面证明多模态学习到表示显著异于单模态。同时,文澜的聚类似乎更贴切(个人觉得),更偏向于形容词。

剩下那个“认知”的多模态模型,也就那样吧,该有的优点他全有,缺点也是。

2.Inverse prompting。这东西说复杂也不复杂,就是利用sample-rerank的方法提高生成质量,尤其是跟上下文的相关度。但与MMI和NSP这种处理方法不同的是他只需要语言模型本身,而不需要多搞一个模型。这东西让我记住的,是我觉得这货可能是可以充分利用大规模预训练模型few shot和内部知识的能力的一个入口。

文章的做法大概是这样(以QA为例)先用promptbeam search来生成答案,然后呢,就把“A是Q的一个回答”给回语言模型,让模型给这个东西打分,然后与beam search的打分做个加权,再进行排序。从实验结果来看,上下文的相关度确实有所提升,并且以往长文本生成容易产生的重复短语的问题也可以缓解(基本解决,但句子间的逻辑问题还是存在。)

但我们可以把思路拓宽点,比如他的Inverse Prompting是“A是Q的一个回答”,但如果把Inverse Prompting改成”A是Q的一个{属性}回答”呢?那是否可以进行属性的控制?当然这么做的话也有一些问题,比如候选的回复里面需要有对应的属性回复。存在更高效的属性生成方法等等。但是,有一些属性生成是few shot的呀,很难结合到现有的一些方法。比如对话中的个性人设。不会真的有人以为现在的个性对话,你问我多少岁,我告诉你我18岁就是个性对话了吧?真正的个性人设是蕴含在对话的方方面面,比如话题的选择,对某些命名实体的态度等等,而不是简单的针对profile进行问答或复述。后来我也在12层的GPT上做了相似的实验,这个方法可以约束一些比如跟性别有关的的问答,其他方面并没有太突出的成果。但简言之,我认为在特征工程,网络结构工程,loss工程后,prompt工程会是下一个研究热点之一。也可能是解决这些属性文本生成在few shot的情景上的一个方法。

3.就会场的信息来看,智源下次会公开一个对话生成方面(开放域)的大模型。就我个人而言,我特别好奇他们会怎么搞。因为开放域对话生成方面主要的几个大问题都珠玉在前

问题1:安全回复,普通的DialoGPT是用概率采样的方法足够了。百度推出的Plato-2使用隐变量的方式也解决得很好,在DST9上开放域对话的表现已经足够出色了(剩下问题的都是硬骨头)。更何况Plato-2已经16亿参数,足够大了。

问题2:缺乏知识、常识。目前该领域的工作大多数是引入额外的知识做条件生成,但同样因为引入额外知识,(知识要和对话内容匹配)那么数据量基本不可能太大。

问题3:多模态开放域对话微软STCA已经搞了。当然你搞个中文的也不是不行。

    © 版权声明

    相关文章