2022年ChatGPT及2023年GPT-4的诞生颠覆了传统PGC、UGC等内容生产方式,意味着在突破性AI技术的赋能下内容生产范式的全新性进展,也是促使人类从以AI为助手的内容生产范式转向以AI为主的通用性内容生产范式的引领性和指导性实践。因此我们可以预见,在Web3.0时代,以AI为主的内容生产方式将是未来内容生产的大趋势和主要范式,并对元宇宙的推演起到无可替代的重要作用。
多模态大模型:AI为辅转变为AI为主的内容生产范式
以往的AI更多是作为内容生产的辅助工具,但是在AI超度深度学习技术发展后,AIGC朝着多模态大模型的方向转变。多模态大模型即可以满足生成内容多样性、可控性的进阶需求,关注复杂场景与长文本等内容中各个元素的组合性及概念、规则等抽象表达的组合性,致力于处理不同模态、不同来源、不同任务的数据和信息,从而满足AIGC场景下新的创作需求和应用场景[1]。
(一)多模态大模型的应用
在国外,2021年OpenAI研发出DALL-E模型,用于根据文本自动生成多种视觉效果图像,符合多种场景的应用。如“牛油果手扶椅”“长颈鹿乌龟”等图像。2022年,OpenAI发布第二代DALL-E即DALL-E 2。DALL-E 2相对于第一代DALL-E,图像的分辨率更高,直接从256*256升级为1024*1024,且使用场景更广泛,包括油画、素描、写实等风格,也包括草原、荒漠、高山、河流等场景,生成多视角的图像。
DALL-E模型根据文本自动生成的多种视觉效果图像
在国内,2021年以来,在多模态大模型方面已经有了不少实践成果。2021年3月20日,北京智源人工智能研究院发布我国第一个研发的人工智能大模型 “悟道1.0” AI模型系统,2021年6月1日,发布了具有1.75万亿参数的模型规模的“悟道2.0”,相较于1.0,悟道2.0运用于oppo小布助手,更加高情商高效率。此后,我国在多模态大模型赛道上挖掘AI“大数据+大算力+大算法”的潜力,不断产生新模型。
(二)多模态大模型促使AI为辅变为AI为主的内容生产范式
多模态大模型使AIGC应用场景更广泛,AI不再只处于辅助地位。
一方面,在实用性上,多模态大模型让AIGC能够适用于广泛的场景且更具灵动性,通过微调数据便可高质量地实现不同应用场景的工作任务,有效解决了企业人才、数据资源有限的难题,在降低生产成本的同时,降低了技术门槛。如百度文心大模型以算力、数据和飞桨深度学习平台为基础,在文字、图像、视频上能够多向生成,积极向多产业进行布局,应用于百度搜索、百度地图、百度机器人等重要产品,并参与到核心业务流程中,为降本增效提供价值。
另一方面,多模态大模型受到国家政策的支持。2021年11月30日,工信部发布《“十四五”大数据产业发展规划》,指出要强化数据“多样性”处理,提升多模态数据的综合处理水平。此外多个相关白皮书发布,如《多模态基础大模型技术白皮书》《2022中国大模型发展白皮书》等,均为AIGC多模态大模型的未来发展指明方向。
在理论与实践基础上,多模态大模型推动AI实现从辅助地位向主要地位的转变。
AI为主时代AIGC的突破性进展:通用性GPT模型
ChatGPT(聊天生成型预训练变换模型)是由OpenAI推出的由AI技术驱动的自然语言处理工具。ChatGPT的诞生使AIGC实现从专用型向通用性转变,AIGC步入全新阶段。GPT-4是OpenAI紧随ChatGPT发布的又一新模型,实现了通用人工智能多模态的质变。
(一)通用性GPT模型:ChatGPT与GPT-4
ChatGPT的核心也是最大的突破即让人工智能步入通用性实践,能够处理多范围任务,解决多领域问题,人工智能变得更加平民化。GPT-4的核心则是在ChatGPT基础上进一步实现文本与图像的多模态识别任务。目前ChatGPT与GPT-4主要应用于以下四个方面。
第一,文章撰写。ChatGPT的写作能力可以应用于各行业。在学术界,ChatGPT可以完成一篇高质量学术论文,包括摘要、关键词、正文与参考文献。在文学创作方面,ChatGPT能够创作出相较于之前AI机器人作品更为成熟的诗歌,在语法规则、语言连贯性上更进一步,主题可以涵盖自然、社会、科学等,风格可以包括现代和古风。在传媒界,可以凭借AI的专业知识帮助新闻从业者撰写出完整的新闻提纲或新闻报道大纲等。但是ChatGPT的文本篇幅限制在3000字内,GPT-4直接将其扩大到25000字,较ChatGPT有了大幅提升,能生成更丰富详细的文本。
第二,生成代码。GPT模型改变了代码开发模式,如首先给到ChatGPT代码指令,便可以迅速生成代码架构,也可以帮助填充代码。其次,通过ChatGPT也可以反向理解代码含义,即输入一段复杂代码,ChatGPT可以为代码进行解释和注释。因此,ChatGPT与程序员合作能够带来强大的工作效果。
第三,图像识别。ChatGPT只能够进行文本传输,而图像识别应用是GPT-4的突破性应用。GPT-4不仅能够根据草图生成网站、识别梗图,还能够理解图像图表的物质和逻辑,检验图像的盲点、缺陷等,实现通用人工智能多模态的突破。
第四,其他生活服务。包括根据周易进行算命卜卦、根据风水给孩子起名、引导用户梳理情绪进行心理辅导等。此外,还包括了百度、谷歌、小红书等媒体的搜索引擎的功能,能够快速查找各类资料如烹饪教程、附近网点、购票流程等日常生活知识。
虽然其技术还不够成熟,但ChatGPT及GPT-4的出现依旧可以说是AIGC去往通用性实践道路上的里程碑事件。
(二)通用性GPT模型带来的优势与机遇
通用性GPT模型的诞生不只是意味着AI能力的突破,更是对整个时代带来了前所未有的机遇,改变了生产力与生产关系。
第一,通用性GPT模型进一步释放生产力。一方面,在内容创作方面,传统生产方式需要耗费大量的人力进行运作,花费大量时间处理繁琐且复杂的事件,通用性GPT模型能够处理很多繁琐的杂事,如撰写新闻报道导语、提供代码大纲、转换图像格式以及根据文本快速生成表格等,从而使得从业者能够把自己的精力集中转移到能创造更高价值的内容生产上。另一方面,在时间成本方面,传统生产方式需要人力的不断监督管理,轮班加班成为常态,而通用性GPT模型利用AI技术能够每天24小时全程在线,缓解人们的工作压力。
第二,通用性GPT模型提高生产效率。基于GPT-3.5模型的百科全书式ChatGPT能够快速地生产出专业且有效的内容,如快速产出游戏代码、迅速显示用户搜索的知识和需要的文案,GPT-4更是在极短时间内便能输出万字长文。在传媒行业能够大大提升新闻的时效性;在文学方面充分发挥想象力,提供高质量故事写作;在日常生活中能迅速解答用户困惑。
第三,通用性GPT模型推动数字化高质量发展。2022年5月,中共中央办公厅、国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,指出需要形成线上线下融合互动、立体覆盖的文化服务供给体系。首先,通用性GPT模型能够准确解释文化数字化,给出发展路径,对其进行深度剖析,为从业者提供思考方向;其次,通用性GPT模型能够创新数字化文化产业内容生产方式,降低数字化文化产业内容生产门槛。同年6月,国务院发布《国务院关于加强数字政府建设的指导意见》,指出利用数字化技术元素,在数字信息和大数据驱动下优化政府治理流程和模式,打造数字政府。通用性GPT模型能够根据各地区实地情况给出个性化服务建设体系,帮助解决百姓实际问题,如当地民众通过ChatGPT能够直接查询政府服务点及联系方式,使政府紧密联系群众,推动构建数字中国。
(三)通用性GPT模型存在的局限与挑战
由于ChatGPT及GPT-4出世时间短,在实践上还存有一系列局限性和需要深入探讨的地方。
第一,由于通用性GPT模型需要大量算力的支持,因此先进AI资源大多掌控在巨头企业手中。通用性GPT模型需要的大量算力和资金成本不是一般企业所能提供的,加上OpenAI接受微软的投资,改变非营利性组织的定位,通用性GPT模型并不属于开源技术,因此核心AI技术还是掌控在资本手中,企业利用通用性GPT模型工具延长AIGC产业链,如生成歌曲、撰写小说、创作游戏代码等,AI更容易变成商业变现的工具。此外,自通用性GPT模型火爆出圈以来,上游包括数据机构、算法机构等,中游包括游戏、视频、文本运营公司等,下游包括内容监测机构、内容分发平台等,覆盖教育、传媒、游戏、广告等多个前沿行业,吸引了全球资本的竞相投资,其概念股股价不断飙升,引发股市大变革,带有经济泡沫的风险。
第二,通用性GPT模型应用的低门槛也造成了一定程度上市场秩序的混乱。AI能力的提升方便专业知识的检索和创作,也产生了很多行业的投机取巧现象,尤其是在教育行业,ChatGPT可以作为家教对孩子进行作业辅导,但也产生了学生家庭作业完全依靠AI的现象,导致学生失去独立思考的能力,为此很多学校采取课堂作业代替课后作业的形式,甚至因此ChatGPT遭到多国学校的封禁。此外,不仅仅在中小学有此类现象,不少高校学生或老师也在利用ChatGPT撰写论文,导致#知名杂志因大量AI生成投稿暂停征稿#这类词条冲上热搜。因此,ChatGPT为人类带来便利的同时,也成为投机取巧的工具,诱使学生产生抄袭甚至学术不端的行为。
第三,通用性GPT模型的技术没有真正成熟,依旧存在“一本正经地胡说八道”的现象。首先,ChatGPT上线以来,能够解决各行业“疑难杂症”,但如果用户的问题没有核心提炼,ChatGPT将答不出最理想的答案,最新发布的GPT-4亦是如此。其次,GPT模型需要用户的引导,不断促成它对上下文的链接和记忆。此外,GPT模型还没有真正达到人脑的思维,没有持续学习的能力,更没有通过图灵测试,它更多的是对历史事件的知识整合运用而无法学习和关注最新产生的知识,对于近期发生的“新鲜事”,它并不了解,很有可能胡编乱造[2]。
总而言之,技术没有善恶之分,通用性GPT模型对社会是利大于弊还是弊大于利,主要还是看背后操纵技术的人类。但就目前来看,通用性GPT模型已经引起了AIGC发展史上的一次大浪潮,并且给未来社会发展指引了新的方向和目标。
AI能力新突破下的AIGC赋能元宇宙内容生成
以GPT模型为代表的生成式人工智能高速演进,有望助推元宇宙的发展。不断突破元宇宙领域关键核心技术,以发展元宇宙为先导,推动人工智能、虚拟现实等新一代信息技术的融合应用,加快成果转化[3]。在Web3.0时代AIGC将为元宇宙空间产出更多高质量内容,满足元宇宙内容生成需求。
《阿凡达2》的数字角色制作中有大量AI参与工作
(一)AIGC与元宇宙交融
AIGC是元宇宙的重要组成部分。元宇宙需要AIGC作助力,AIGC的创作能力能够适应元宇宙各种场景的应用。其一,AIGC为元宇宙提供海量内容。AIGC不同于PGC、UGC的内容生产范式,基于AI技术的AIGC具有强大的算力,汇聚互联网各方面数据,能够产生更巨量的内容,能够保证元宇宙内容的充分供给。其二,AIGC相对于PGC和UGC等内容生产模式的成本更低,降低元宇宙的内容生产成本。AIGC模式具有规模递减优势,成本支出主要在于模型算法开发与硬件等固定成本领域,所以在元宇宙场景下,AIGC生成内容规模越大,单位内容生成的边际成本将逐渐下降且无限逼近于零[4]。其三,AIGC将落实到元宇宙的各个虚拟场景的应用中去,如文本、图像、音频、3D模型等。因此,生产数量庞大且生产成本较低的AIGC将成为元宇宙内容生产主要工具,也将成为各个应用场景下的主要内容生产模式。
元宇宙也会为AIGC提供底层技术支撑,促进AIGC的不断发展。AIGC需以人工智能三要素为基础:作为基础“燃料”的算据、作为核心驱动力的算法、作为运行保障的算力。其中,算据支撑需要借助大数据语料和训练集;算法模型的建构需要借助多模态大模型、数字孪生以及虚拟现实等技术;算力则需要借助云计算、边缘计算等[5]。元宇宙发展的同时,区块链、人工智能、数字孪生、虚拟现实等技术也将得到发展,将能够助力于AIGC的发展。
(二)通用性GPT模型推动元宇宙演进
通用性GPT模型作为AIGC技术的新突破,对推动元宇宙发展进程有历史性意义。
1.通用性GPT模型降低元宇宙参与门槛
2021年被称为“元宇宙元年”,元宇宙的兴起不过几年时间,由于其较为新兴且对研究人员专业水平要求较高,所以对元宇宙的探讨并没有全面普及。而近年来关于元宇宙的实践也有较高的资金或者专业门槛,在很多普通群众意识中元宇宙具有一定的泡沫性,对其需求并不大。而作为通用性人工智能ChatGPT诞生后能够满足各行业的知识需求,并适应多语言内容,及时解答用户疑惑,让用户真正感受到元宇宙的相关实践普及,ChatGPT能够在全世界内获得广泛用户,为元宇宙建设积累大量用户。
关于具体的建设,在内容创作上,通用性GPT模型系统便捷的操作流程降低了用户使用和参与创作的门槛,大部分人通过简单学习便可以利用通用性GPT模型进行简单的人机对话与内容创作,通用性GPT模型已经基本融入一部分人的日常工作流程中,元宇宙得以与现实生活衔接起来。在技术开发上,通用性GPT模型基于维基百科、学术期刊、书籍、网页等数据集,集聚大量专业知识,能够实时帮助普通用户了解区块链、人工算法等底层技术的概念和相关应用,从而对元宇宙的底层逻辑有更详细的掌握,此外,通用性GPT模型可以帮助专业从业者编写技术代码,实现人机交互式建设元宇宙。
2.通用性GPT模型赋能虚拟人变革
虚拟人作为元宇宙的重要组成部分,近年来已经有不少实际应用,包括电商行业的AI客服、传媒行业的虚拟主持人、社交媒体平台上的虚拟主播等,越来越灵活且新颖的虚拟人满足用户的好奇心和交互需求,赢得用户的欢迎和喜爱。但虚拟人技术并未完全成熟,依旧存在技术漏洞,如AI思维痕迹明显、无法满足人类情感需求等。而通用性GPT模型的出现将协助虚拟人摆脱现存困境。
通用性GPT模型相较于传统虚拟人来说,其优势体现在四个方面:其一,通用性GPT模型可以用于许多不同的自然语言处理任务,例如语言翻译、问答、文本生成、图像识别等。其二,通用性GPT模型还是一种基于无监督学习的模型,这意味着它不需要标记的训练数据即可学习自然语言规律,而此前市面上大量虚拟人AI模型都需要大量的标记数据才能进行训练。其三,通用性GPT模型具有强大参数,ChatGPT拥有1.75千亿参数,GPT-4则拥有1.8万亿参数,比许多传统的虚拟人AI模型要大得多。这使得ChatGPT能够处理更加复杂和抽象的自然语言文本,并生成更加自然流畅的回复[6]。其四,通用性GPT模型运用了RLHF(从人类的反馈信号中强化学习)训练模型,可以通过数据集形成的奖励模型,结合人类给予的反馈信号来判断初始语言是否是问题的最优解,以此调整成符合人类思维的回答,降低机器最初学习形成的AI内生偏见,将通用性GPT模型运用到虚拟人中,将能够赋予虚拟人以人类思维。
3.通用性GPT模型为元宇宙提供丰富的高质量内容
元宇宙是内容创造并被其驱动的世界,作为一个巨大的空间,需要“宇宙般多”的内容去填补,需要多维立体地吸引用户参与体验、参与内容的创作[7]。AIGC能够为元宇宙提供巨量内容,而通用人工智能则能为元宇宙提供丰富的高质量内容。
在量上,目前最大模型的GPT-4拥有1.8万亿参数,可以提供巨大的算法和算力,连接大量语料库,快速输出海量内容,也可以同时跟多个用户进行互动,用来支撑元宇宙的内容需求,且能够按照用户的独特需求对其进行个性化处理。在质上,虽然GPT模型仍存在一定的伦理问题,但对于元宇宙来说,在规避伦理问题的同时也提供了高质量内容生成的可能。其一,通用性GPT模型能够高质量理解人类思维,即用户在与通用性GPT模型进行交流时,不需要按照如Siri、小爱同学之类的机器人对话模板进行交流,而是直接以人与人自然对话式的语言,通用性GPT模型便可以理解。这提高了AI与人类交流的质量。其二,通用性GPT模型能够提供高质量内容。通用性GPT模型具有记忆力,能够根据上下文逻辑进行推理,从而使答案越来越准确。
结 语
可以预见,以AI为生产力的内容生产范式将是未来内容生产的主要发展方向,元宇宙的发展也需要以AIGC为支撑,尤其是通用性人工智能的内容生产方式。
虽然现今通用性GPT模型实现了AIGC内容生产范式的一大进步,但是通用性AIGC技术在全球各地区的发展仍有差距,尤其是OpenAI对于GPT-3之后的几乎所有模型都不开源,AIGC的技术发展差距将进一步拉大。对于我国来说,目前国内的AI技术与OpenAI的GPT技术还有一定差距。十三届全国政协委员、第五空间信息技术研究院院长谈剑锋表示:“从ChatGPT类研究差距可以看出,我国产业创新能力还有提升空间,虽然在技术能力方面基本可与国外相当,尤其是瞄准市场进行产业化应用及用户规模等方面具有优势,但在基础理论研究、技术社区建设、数据标注共享等方面也还需要加强。”对于该情形,360集团创始人周鸿祎提出建设性建议,即首先在技术方面我国需要继续推动互联网内容平台的数据互联互通,为此类技术的发展营造更加开放的网络环境,进一步缩小我国与国外先进技术的差距。其次在创新上需要加大相关科技企业扶持力度,给予更多发展空间,特别是在ChatGPT类新技术创新应用中,留足空间,鼓励和支持更多创新[8]。
元宇宙的建成应该是全球国家共同发力、共同推进的结果,因此,在任何一个环节任何一个国家都应积极拥抱新技术,并形成共同探讨的合作局面。就目前状态来说,未来我国可以从三个方面来积极探索。一是技术上突破AI技术芯片的制造力,以应对美国半导体公司对我国技术芯片供应的截断。二是人才培养上积极鼓励和培养AI专业人才,提高创新意识,尤其是国内一流高校在学科培养上进行适时调整以起到模范作用。三是行业中各巨头企业应加强相互间的合作交流,形成AI命运共同体。
参考文献:
[1]中国信息通信研究院和京东探索研究院.人工智能生成内容(AIGC)白皮书[R/OL].(2022-09)[2023-2-20].http://www.caict.ac.cn/kxyj/qwfb/bps/202209/P020220902534520798735.pdf.
[2]吴双.别怕,和ChatGPT一起奔向未来[N].人民邮电,2023-02-23(006).
[3]李海楠.ChatGPT带来元宇宙新契机[N].中国经济时报,2023-02-24(004).
[4]王诺,毕学成,许鑫.先利其器:元宇宙场景下的AIGC及其GLAM应用机遇[J].图书馆论坛,2023(02):117-124.
[5]李白杨,白云,詹希旎等.人工智能生成内容(AIGC)的技术特征与形态演进[J].图书情报知识,2023(01):66-74.
[6]董静怡.虚拟人能否靠ChatGPT迎来巨大突破?[N].21世纪经济报道,2023-02-20(008).
[7]谢新水.元宇宙中的内容生产者:生产境况与行动沼泽[J].广西师范大学学报(哲学社会科学版),2022(05):50-61.
[8]李木元,周佳佳.ChatGPT对我们有什么启示?[N].人民政协报,2023-03-01(003).
本文引用格式参考:
郭全中,袁柏林.AI能力新突破下的AIGC:内容生产新范式[J].青年记者,2023(13):66-69.