AI绘画和ChatGPT的火爆,再一次引发行业内对AI的火热讨论。
ChatGPT仅仅推出两个月,月活用户就已经突破了1亿,成为史上用户增长速度最快的消费级应用程序,文生图(text-to-image)也在仅仅两个月内就从外国网友和中国极客手中的小众黑科技快速移植到普通用户都能触手可及的小程序和手机APP中。
AI以崭新的应用形式又一次刺激人类对科技的想象,但这些让人兴奋应用的体验感依然没有想象中丝滑,例如AI绘画会画出与主题完全不相干的图片,ChatGPT也时常一本正经地胡说八道。
技术更新诞生新的应用,而新应用出现的问题往往又倒逼技术的升级更新,AIGC势必也会在AI芯片领域掀起新的浪潮。
现象级AI引发范式变革,芯片算力需求井喷
如何理解AIGC?即一种AI生成式内用技术,让AI完成原本只有人类才能做到的原创性工作,可以将其理解为是从PGC(专业生成)转向UGC(用户生成)之后的又一次内容生成的范式转移。
事实上早在2014年,对抗生成网络GAN(Gemerative)就已经能够利用现有样本生成新图像,例如给GAN模型喂入大量的人脸数据,便能生成真假难辨的人脸照片,比较常见的应用是我们在短视频平台中见到的“假笑特效”、“老人特效”、“让老照片动起来”等视频特效,但这一波不足以让AIGC概念爆火。
直到有大模型、可控性、多模态等技术为AIGC赋能,AIGC才愈发走向成熟,终于有了更加出色的应用表现。
需要强调的是,对于AI而言,如何理解用户输入语言的含义是运作的关键,而AI对人类语言的理解主要基于被喂入的数据——被喂入的数据越多,理解能力越强,即模型越大,理解能力越强。这一点在ChatGPT上也得到了证明,其友好对话能力也是基于较新的GPT-3.5这一大规模的通用语言模型,通过对来自四面八方的大量文本进行训练,从而产生类似人类的反应。
不巧的是,AIGC对大模型的诉求与GAN有许多相悖之处,例如GAN需要一个特定的数据集而不是大量的数据集进行学习,不能实现泛化使用。业界在尝试基于GAN做文生图的技术也时常出现描述文本缺失、分辨率低、难以理解高层次语义信息等问题。
不过这些问题在后来出现的Diffusion+ CLIP的技术结合中得到解决,前者通过多步生成图片,且每一步都是一个自编码器,从而保证训练的稳定性,后者负责图文匹配验证,以确保生成的图片能够符合文字描述。
探讨支撑AIGC发展的主要技术,可以发现,无论是AI绘画还是ChatGPT的爆火,主要都是得益于深度学习模型方面的创新,不断创新的算法、预训练模型以及多模态等技术的融合推动了AIGC的变革,其所产生的商业价值潜力巨大。
2023年2月1日, Open AI率先一步尝试商业化,推出了名为ChatGPT Plus的订阅服务,每月收费20美元,订阅的用户可以获得全天候的服务,并在高峰时段享有优先访问权,用户不仅能够提前使用新功能,同时应用的响应时间也会更快。Open AI 预计2023年,ChatGPT将实现2亿美元的营收。而这也引发了一大批互联网公司对ChatGPT的布局,继谷歌献上Bard之后,华为、百度、腾讯、阿里巴巴等头部企业也都纷纷表示,已经拥有在研对标ChatGPT相关的模型及产品,致力于打造中国版ChatGPT。
2018年谷歌发布了基于Transformer机器学习方法的自然语言处理与训练模型BERT,人工智能就进入大模型参数的预训练模型时代,当下的预训练模型参数数量、训练数据模型正在按照每年300倍的趋势增长,而人工智能硬件算力增长速度与模型计算量的增长速度存在万倍差距。ChatGPT的出现与商业变现,意味着模型计算量的增长速度将进一步加快,芯片算力需求出现井喷,不仅是对AI训练芯片单点算力需求的提升,还包括对算力定制化、多元化需求的提升,甚至对数据传输速度也提出了更高的要求。
IDC预计,到2025年人工智能芯片市场规模将达到726亿美元。目前每台人工智能服务商普遍配置2个GPU,未来18个月,GPU、ASIC和FPGA的搭载率均会上升。通用性递减、专用性增强是AI芯片的主要发展方向。国际大厂将越来越重视打造从云端训练到终端响应的全套AI芯片生态体系。
AI芯片分工生变,云端推理加速转移
据外媒semianalysis报道,ChatGPT每天在计算硬件方面的运营成本为694444美元,Open AI需要大约3617台HGX A100服务器(28936个GPU)为ChatGPT提供服务。真正需要用云端芯片进行推理的需求增加,云端无法承受如此庞大的数据和工作量,如果能够将AI云端芯片的处理工作向边缘侧转移,或许将为大模型的训练和推理释放更多的计算空间。
与此同时,用户需求也在改变着典型的AI芯片分工方式,一方面消费者希望保护个人数据隐私,即将终端数据保留在终端设备上,另一方面,消费者又需要可靠的数据,并即时获得处理结果,数据不断从边缘侧产生,AI处理的重心正在持续向边缘转移。
高通正在采取不同的方式实现终端侧的学习能力,对包括小样本学习、无监督持续学习、联邦学习和低复杂度的终端侧训练等方向的研究,且已经取得了一些成效。
通过小样本学习,在关键词识别方面,AI能够“看完”某一人的笔迹或书面文字之后快速进行辨认,也能在用户录入数据时进行局部模型适应,凭借少量样本数据和数据标记能力,提升关键词识别能力。
在联邦学习方面,云端创造的模型被下发到边缘侧终端之后,基于一定程度的离线学习,终侧端就可以根据消费者实际情况调整模型,由于终端侧学习的过程会产生噪音,因此还能将其回传到云端进一步提升模型的泛化能力。在实际的应用场景中,如果一辆汽车不断在多个国家的不同路况上行驶,云端模型就可以持续进行适应,假以时日模型经过优化,就能打造出更加优秀的自动驾驶汽车模型。
为了让AI在终侧端发挥最大作用,高通也有针对性的技术创新。
例如,高通支持INT4的精度推理。INT4相比INT8能够实现60% 的能效提升和90%的AI推理速度提升,如果从INT8转化到INT4、或从浮点计算转化到整数计算,在同样的算力下能够处理更多的数据。如果将32位浮点模型转化为INT4模型,能效甚至能够提升到64倍。
智能终端性能升级成必然,高通已赋能20亿终端
提升边缘侧处理能力已经成为全民所需,高通已经在这一方面取得了不少突破性成果,且将不少AI算法应用到了影像和图形处理等功能中,为业界提供了一条发展思路。
首先,高通专注统一技术路线图进行产品开发,涵盖了边缘AI、前沿的视觉效果和视觉技术、图形和游戏技术、新颖的多媒体效果、极快处理速度,以及5G连接能力等特性。高通将这些技术进行规模化扩展,从耳机等较低复杂度的产品到汽车等高复杂度的产品。这些AI技术中包括了自然语言处理、面部识别等不同的能力。
其次,高通的AI引擎已经赋能20亿终端。高通的AI引擎包含图形处理单元、CPU、以及更关键的Hexagon处理器,其中Hexagon处理器又包含标量、向量和张量处理器,这些处理器能够很好地与神经网络模型的不同部分实现匹配。基准测试显示,高通AI引擎在自然语言处理、目标检测等模型方面都实现了一定的性能优化。
另外,高通还在芯片子系统中集成了一个小型“始终在线”小引擎,称之为高通传感器中枢,能同时处理多路数据流,包括传感器、语音和音频、连接和始终感知的摄像头等。这一传感器中枢通过AI性能的提升已经具备识别隐患声音的能力,例如能够对半夜传来的玻璃破碎声记下监测和预警。
高通还开发了具有高度可扩展性的硬件架构,针对应用需求进行扩展开发,例如高通的骁龙移动平台,通常会配置一个Hexagon处理器实例;但如果扩展到计算等其他业务时,也可以使用两个Hexagon处理器实例;面向汽车、云和边缘,则可以使用多个Hexagon处理器实例来提高算力。
AIGC“一夜爆红”,高通依然发挥自己在智能终端领域的长处与优势,通过技术创新持续提升着终端AI芯片的处理能力,或许,在绝大多数AI芯片公司选择在云端持续加码时,重视边侧端的推理计算能力更能创造一个具有颠覆性的未来。