随着百度文心一言的发布,中文互联网充斥着各种关于文心一言图片生成能力的质疑,其实文心一言发布之前百度很早就上线了文心一格专门用于图像生成的模型。笔者亲测文心一格同样会闹文心一言一样的笑话。而这些笑话大部分都是给模型的输入只是一个词语,特别很多是成语,我相信这和训练模型的样本有着巨大的差异,文本转图像模型(text2image)设计的初衷就不是用于把一个词语或者成语转化为图像的,而是根据文本描述来生成图像,描述越细致图像生成越精准。网上广为好评的Midjourney 能够生成各种惊艳的作品,也是和对应的prompt分不开的。
只要有合适的prompt 你可以扩展一幅名画。
接下我会简单对比同样的prompt下文心一格,MidJourney,GPT4(New Bing)生成的图片。
第1轮比较
Midjourney prompt – “a robot working on a laptop, retro, illustrated, comic style”
文心一格在同样的提示下生成的图片:
GPT4(new bing 多模态)
三个模型都能够按照提示生成图片,GPT-4的理解更到位一些。
第2轮比较
Midjourney prompt – “logo design for a food truck business, Psychedelic style”
“食品卡车业务的标志设计,迷幻风格”
文心一格在同样的提示下生成的图片:
GPT4(new bing 多模态)
GPT4效果差一些,其他两个模型基本可以非常好的完成prompt提出的任务。通过上面的简单的对比,。我觉得大部分人都误会了文心一言。
为了进一步验证,我把郑智化的一首歌《我这样的男人》的歌词转化成Prompt,用文心一格生成的图片制作了一个视频。
我这样的男人https://www.zhihu.com/video/1622815680855855104
大家可以看一下,文心一格生成的图片和歌词还是十分贴切的。
Prompt engineering 是一门新兴的学科,它涉及到如何设计和优化人工智能系统的输入和输出。prompt engineering 的目的是让人工智能系统能够更好地理解人类的需求和意图,以及更有效地传达信息和建议。prompt engineering 包括了多个方面,例如选择合适的数据集、构建合理的查询、评估系统的性能和可靠性等。而中文的Prompt Engineering研究还才起步一定会面临很多挑战,需要大家沉下心来多做研究,多一点耐心少点浮躁。
下面一些参考