我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

AI应用信息10个月前发布 XIAOT
154 0
我们即将进入一个 AI 原生的时代,一个人机交互的新时代。

「这是迄今为止最强的文心大模型。它实现了基础模型的全面升级,在理解、生成、逻辑和记忆四大能力上都比文心一言线上版本有了明显提升,综合水平与 GPT-4 相比毫不逊色,」百度创始人、董事长兼 CEO 李彦宏说道。

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

国内的大模型已经冲到了业界最强水平?10 月 17 日,百度世界大会上文心大模型 4.0 的发布引来了一大波关注。

在昨天的大会现场,百度展示了一段又一段 demo,文心大模型现在能看懂你的言外之意,比如问它一个问题:「我想回承德买房,能用公积金贷款吗?手续怎么办,我在北京工作。」

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

一段完全口语化的表达,前后乱序,没有明确表述,但 AI 也能理解说话人的潜台词:公积金是北京的,户口可能在承德。文心一言理解上下文之后准确针对问题给出了回答。

当然还有先进的多模态方向:给文心大模型一个新车型的图片,再加上几句话的提示(prompt),它就可以很快生成完整的企划文案图片,并把素材结合成海报。再提示几下,文心就能结合官网信息和已有内容生成一段宣传视频,其中还有数字人在进行讲解。

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

从零开始到输出海报和视频,整个过程不到三分钟。

「人们常说不写作业母慈子孝,一写作业鸡飞狗跳。文心一言能不能帮助家长解决辅导功课的问题?」李彦宏说道。

给出一道数学题,文心的解答过程非常详细。AI 还能够进一步解释这个问题中涉及到的各个知识点。

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

衡量 AI 智能程度的另一个指标在于长期记忆能力,如果大模型生成的内容前后逻辑不一致,那就不存在可用性了。在现场,李彦宏让文心一言生成一部武侠小说的大纲,再在其中细化情节,加入几个人物,改变冲突的戏剧要素…… 问题来了,经历了多轮对话,它还记得自己最开始给女主角设定的特殊能力吗?

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

完全没有问题。

面向全社会开放才一个多月,文心大模型的综合水平看来又有了大幅进化,不过在主题演讲上的那些毕竟是「命题作文」,真正用起来会不会是一回事呢?

其实想要用上并不难:昨天大会的一开场,百度就宣布文心大模型 4.0 开启邀请测试,现场观众都有了测试权限,在网站和 APP 上都可以体验。我们则是提前获得了评测资格,尝试了一下新版本。

文心大模型 4.0 正面对比 GPT-4

在文心一言的网站上,现在已经出现了文心大模型 4.0 的标签,表面看起来和 3.5 版没有太大区别:

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

在这里我们要引入一点前置知识:上个版本文心大模型 3.5 已经有了插件(现有 8 种)、多模态理解、生成等能力,通过知识点增强技术实现了对世界知识的熟练掌握。因此,既然说 4.0 版是「迄今为止最强大模型」,我们就不能再用以前过于简单的问题来考验它了。

先看理解能力,这道「中文十级题」目测连网友都会翻车,文心大模型 4.0 的回答简洁明了:

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

换业界标杆 GPT-4 来回答,它理解并解释了其中幽默的意味,但表示无法确定小明最后买的是几等座:

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

下面这段话是在一档直播节目上出现的,那时人们评价道:全中国没人听得懂白岩松在说什么。

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘
我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

两个大模型都认为说话人想表达的是:人们都喜爱足球这项运动,不应该因为一小部分人的不喜欢而影响到这种喜爱。不过作为人类,还是得说一句 AI 没有理解「想说声喜爱很难」这种感情。

看起来理解问题的水准上,两种模型水平相近,文心大模型在一小部分问题上有点优势。

再看逻辑推理能力,输入一个高考试卷中的物理选择题,文心大模型 4.0 和 GPT-4 都给出了正确的回答:

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘
我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

看起来文心能给出的答案更详细一些,另外还显示了几个进一步解释概念的引导选项,似乎它对做题进行了专门的优化?

我们继续问了很多高考的数学题目,结果各有对错,也有些是都答不上来的。总体来看文心 4.0 和 GPT-4 的水平相近。

还有多模态生成,我们直接用同样的指令让两个大模型生成一段视频,文心一言调用「一镜留影」插件,直接输出了结果:

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

 

GPT-4 则是调用 CapCut(字节的剪映)插件生成视频内容。需要注意的是,它提示要想生成视频,就必须要与你进行多轮对话,逐步确定好视频脚本(英文的)、屏幕比例等等:

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

在不断的测试中我们还能看出,如果你 Prompt 得越仔细,说 AI 话的格式越规整,GPT-4 的表现就相对越好,不过最终也并没有产生决定性的差距。调戏大模型,现在已经越来越像一门学问了。

为了测试四大能力中的长期记忆能力,我们让文心大模型 4.0 阅读一篇贴吧的帖子:在崩铁更新了 1.4 版本之后,有人从自己专业的角度对剧情进行了一长段吐槽,那么这评价合理吗?

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

文心认为游戏剧情不需要完全按照现实世界的逻辑来展开。我不是很认同,我就是想要符合现实逻辑的剧情:

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

能不能再跌宕起伏一点?

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘

再尝试替换其中的一个人物:

我们给不输GPT-4的文心大模型4.0,来了一场技术揭秘
    © 版权声明

    相关文章