一年前,我们发布了一个假设,即生成式AI将成为技术领域一个深远的平台转变,然后,风暴来临。
科学家、历史学家和经济学家长久以来都在研究创新的寒武纪大爆发的最佳条件。在生成式AI中,我们已经达到了一个现代的奇迹,我们这一代的太空竞赛。
这一时刻已经酝酿了几十年,摩尔定律的六十年为我们提供了处理浮点数据的计算能力,四十年的互联网为我们提供了数万亿token的训练数据,移动和云计算的二十年让每个人的手掌中都有一台超级计算机。换句话说,数十年的技术进步为生成式AI的起飞创造了必要的条件。
ChatGPT的崛起成为点燃导火线的火花,释放出我们多年未见的创新密度和热情——可能自互联网初期以来。在“脑力谷”中,人们尤其是激动,AI研究者达到了摇滚明星的地位,每个周末黑客马拉松的房子都挤满了新的Agent和陪伴聊天机器人。AI研究者从车库里的“黑客”变成了指挥数十亿美元计算的特种部队。arXiv的论文如此多产,以至于研究者们开玩笑要求暂停新的出版物,以便他们能赶上。
但很快,AI的兴奋变成了近乎歇斯底里。突然,每家公司都成了“AI副驾驶(Copilot)”。我们的收件箱被“AI Salesforce”、“AI Adobe”和“AI Instagram”的无差别宣传充满。1亿美元的种子轮又回来了。我们发现自己处于一个不可持续的融资、人才战和GPU采购的疯狂。
果然,裂痕开始显现。艺术家、作家和歌手挑战机器生成的IP的合法性,关于伦理、监管和即将到来的超级智能的辩论充斥了华盛顿。更令人担忧的是,硅谷开始有传言称生成式AI实际上并不有用。产品远远低于预期,这可以通过糟糕的用户留存率来证明。对许多应用的最终用户需求开始达到高潮,这只是另一个蒸汽泡沫周期吗?
对AI的不满之夏使批评者欢欣鼓舞地跳舞,让人想起互联网的初期,那时在1998年,一位著名的经济学家宣称:“到2005年,将变得清晰,互联网对经济的影响不会超过传真机。”
毫无疑问——尽管有噪音、歇斯底里和不确定性及不满的氛围,生成式AI的起步已经比SaaS更加成功,仅从初创公司就获得了超过10亿美元的收入(SaaS市场需要几年,而不是几个月,才达到同样的规模)。
一些应用已经成为家喻户晓的名字:ChatGPT成为增长最快的应用,尤其在学生和开发者中有很强的产品市场契合度;Midjourney成为我们的集体创意缪斯,据报道仅用11个团队就达到了数亿美元的收入;Character推广了AI娱乐和伴侣,并创造了我们最渴望的消费者“社交”应用——用户平均在应用中花费两个小时。
尽管如此,这些成功的早期迹象并没有改变一个事实,那就是许多AI公司根本没有产品市场契合度(PMF)或可持续的竞争优势,而整个AI生态系统的繁荣是不可持续的。
现在尘埃已经稍微落定,我们认为现在是一个适当的时候来放大和反思生成式AI——我们现在所处的位置,以及我们可能的走向。
面向第二阶段
生成式AI的首年——“第一幕”——是从技术出发的。我们发现了一个新的“锤子”——基础模型,并引发了一波轻量级的新技术演示应用。
我们现在认为市场正在进入“第二幕”——这将是从客户开始的。第二幕将端到端地解决人类问题。这些应用与首批推出的应用在本质上有所不同。它们往往将基础模型作为更全面解决方案的一部分,而不是整个解决方案。它们引入了新的编辑界面,使工作流程更加粘性,输出效果更好。它们往往是多模态的。
市场已经开始从“第一幕”转向“第二幕”。进入“第二幕”的公司的例子包括Harvey,该公司为顶级律师事务所定制LLM;Glean,该公司正在爬行和索引我们的工作空间,使生成式AI在工作中更加相关;以及Character和Ava,它们正在创建数字伴侣。
市场格局
我们更新的生成式AI市场图如下:
与去年的地图不同,我们选择按照使用案例而不是模型模态来组织这张地图。这反映了市场上两个重要的推动力:生成式AI从技术锤子到实际使用案例和价值的演变,以及生成式AI应用日益多模态的特性。
此外,我们还加入了一个新的LLM开发者栈,反映了公司在生产中构建生成型AI应用时转向的计算和工具供应商。
重新审视我们的观点
我们去年的文章提出了一个关于生成式AI市场机会的论题,以及对市场如何发展的假设。如今一年过去了,来看看我们预测得怎么样呢?
以下是我们预测错的:
- 事情发展得很快。去年,我们预计还需要近十年的时间拥有实习生级别的代码生成、好莱坞质量的视频或不发机械声的人类质量语音。但听一听Eleven Labs在TikTok上的声音或Runway的AI电影节就明白,未来已经以光速到来。甚至3D模型、游戏和音乐都快速变得优秀。
- 瓶颈在供应端。我们没有预料到最终用户的需求会超过GPU的供应。许多公司增长的瓶颈很快就不是客户需求,而是获取Nvidia的最新GPU。长时间的等待成为常态,出现了一个简单的商业模型:支付订阅费跳过等待队列并获得更好的模型。
- 垂直分离尚未发生。我们仍然相信“应用层”公司和基础模型提供商之间会有分离,模型公司专注于规模和研究,应用层公司专注于产品和UI。实际上,这种分离还没有干净利落地发生。事实上,最初面向用户的应用中最成功的是垂直整合的。
- 竞争环境残酷,现有竞争者的反应迅速。去年,竞争格局中有几个过于拥挤的类别(尤其是图像生成和文案写作),但总体上市场还是一个空白区域。如今,竞争格局的许多角落比机会还要竞争激烈。从Google的Duet和Bard到Adobe的firefly,现有竞争者迅速的反应——以及他们最终愿意承担“风险”的意愿——加剧了竞争的热度。即使在基础模型层,我们也看到客户在不同供应商之间建立自己的基础设施。
- 壁垒在客户中,而不是在数据中。我们预测,最好的生成式AI公司可以通过数据飞轮生成可持续的竞争优势:更多使用→更多数据→更好的模型→更多使用。尽管这在某种程度上仍然是对的,特别是在拥有非常专业和难以获得的数据的领域,但“数据壕沟”正处于不稳定的地面:应用公司生成的数据并没有创造一个无法逾越的壕沟,下一代基础模型很可能会摧毁初创公司生成的任何数据壕沟。相反,工作流和用户网络似乎正在创造更持久的竞争优势来源。
以下是我们预测对的:
- 生成式AI是一种事物。突然之间,每个开发者都在研究生成式AI应用,每个企业买家都在要求它。市场甚至保留了“生成式AI”的名称。人才涌入市场,风险资本也涌入。生成式AI甚至成为了流行文化现象,如“哈利·波特巴伦西亚加”这样的病毒视频,或者由Ghostwriter创作的模仿德雷克的歌曲“Heart on My Sleeve”,这首歌已经成为了排行榜上的热门歌曲。
- 第一个杀手级应用已经出现。众所周知,ChatGPT是最快达到1亿MAU的应用程序——并且在短短6周内自然而然地做到了这一点。相比之下,Instagram花了2.5年,WhatsApp花了3.5年,YouTube和Facebook花了4年才达到那种用户需求水平。但ChatGPT并不是一个孤立的现象。Character AI的参与深度(平均每次会话2小时)、Github Copilot的生产力益处(效率提高55%)以及Midjourney的商业化路径(数亿美元的收入)都表明,第一批杀手级应用已经到来。
- 开发者是关键。像Stripe或Unity这样以开发者为中心的公司的核心洞察是,开发者创造了你甚至无法想象的使用案例。在过去的几个季度里,我们接到了从音乐生成社区到AI红娘到AI客户支持代理的各种想法。
- 形态正在发展。AI应用的第一版大多是自动完成和初稿,但这些形态现在正在变得越来越复杂。Midjourney引入的摄像机平移和填充是生成式AI优先用户体验变得更丰富的一个很好的例子。总的来说,形态正在从个体到系统级的生产力,从人在循环中到执行导向的代理系统发展。
- 版权、伦理和存在的恐惧。这些热点话题的辩论如火如荼,艺术家、作家和音乐家意见不一,有些创作者正当地愤怒于其他人从衍生作品中获利,有些创作者则接受了新的AI现实(Grimes的利润分享提议和James Buckhouse对成为创意基因组的一部分的乐观态度浮现在脑海中)。没有初创公司想成为最终的Spotify的Napster或Limewire(感谢Jason Boehmig)。规则是模糊的:日本已经宣布用于培训AI的内容没有IP权利,而欧洲已经提议下重手进行监管。
我们现在所处的位置?生成式AI的价值问题
生成式AI并不缺乏使用案例或客户需求。用户渴望AI能使他们的工作变得更容易,他们的工作产品变得更好,这就是为什么他们会以创纪录的速度涌向各种应用的原因(尽管缺乏自然分布)。
但人们会继续使用吗?不一定。下面的图表比较了AI优先应用与现有公司的首月移动应用留存率。
用户参与度也不佳。一些最好的消费公司有60-65%的DAU/MAU,WhatsApp的为85%。相比之下,生成式AI应用的中位数为14%(Character和“AI陪伴”类别是显著的例外)。这意味着用户还没有在生成式AI产品中找到足够的价值,以至于每天都在使用它们。
简而言之,生成式AI最大的问题不是寻找使用案例、需求或分发,而是证明价值。正如我们的同事David Cahn所写:“2000亿美元的问题是:你打算使用所有这些基础设施来做什么?它如何改变人们的生活?”建立持久的业务的路径将需要解决保留问题,并为客户生成足够深入的价值,使他们坚持并成为每日活跃用户。
但我们不应该绝望。生成式AI仍处于其“尴尬的青春期”。有时会有卓越的迹象,当产品没有达到预期时,失败通常是可靠的、可重复的且可修复的。我们的工作摆在面前。
第二阶段分析
创始人正在进行prompt工程、微调和数据集策划的艰苦工作,以使他们的AI产品优秀起来。他们正在逐步地建设,将引人注目的Demo演示变成完整的产品体验。与此同时,基础模型底层继续充满研究和创新。
随着公司找到持久价值的路径,正在发展一个共享的剧本。我们现在有了共享的技术来使模型变得有用,以及将塑造生成式AI第二幕的新兴UI范式。
模型开发栈
- 新兴的推理技术,如连锁思考、树状思考和反射,正在提高模型执行更丰富、更复杂的推理任务的能力,从而缩小了客户期望与模型能力之间的差距。开发者使用像Langchain这样的框架来调用和调试更复杂的多链序列。
- 迁移学习技术,如RLHF和微调,正变得更加可用,特别是随着GPT-3.5和Llama-2的微调的最近可用性,这意味着公司可以将基础模型适应其特定领域,并从用户反馈中改进。开发者从Hugging Face下载开源模型,并微调它们以实现优质的性能。
- 检索增强生成(RAG)正在引入关于业务或用户的上下文,减少幻觉并增加真实性和实用性。像Pinecone这样的公司的向量数据库已成为RAG的基础设施支柱。
- 新的开发者工具和应用框架为公司提供了可重用的构建块,以创建更先进的AI应用,并帮助开发者评估、改进和监控生产中的AI模型的性能,包括像Langsmith和Weights & Biases这样的LLMOps工具。
- 像Coreweave、Lambda Labs、Foundry、Replicate和Modal这样的AI-first基础设施公司正在解除公共云的捆绑,并提供AI公司最需要的东西:大量的GPU以合理的成本、按需可用和高度可扩展,以及一个不错的PaaS开发者体验。
这些技术应该能够在基础模型同时改进的情况下,缩小期望与现实之间的差距。但使模型变得出色只是成功了一半,生成式AI优先的用户体验也在进化:
新兴产品蓝图
- 生成式界面:基于文本的对话用户体验是LLM的默认界面。渐渐地,新的形态进入了武器库,从Perplexity的生成用户界面到Inflection AI的语音发声等新的模态。
- 新的编辑体验:从Copilot到导演模式(Director‘s Mode)。随着我们从Zero-shot到ask-and-adjust(感谢Zach Lloyd),生成式AI公司正在发明一套新的旋钮和开关,它们看起来与传统的编辑工作流程非常不同。Midjourney的新的平移命令和Runway的导演模式创造了新的相机般的编辑体验。Eleven Labs使得通过提示(Prompt)操作声音成为可能。
- 越来越复杂的代理系统:生成式AI应用越来越不仅仅是需要人来审查的自动完成或初稿;它们现在有自主权来解决问题、访问外部工具并代表我们端到端地解决问题。我们正稳步从0级进展到5级自主性。
- 系统范围内的优化:有些公司并不是嵌入单个人用户的工作流程并使该个体更有效,而是直接解决系统范围内的优化问题。你能否选择一部分支持票据或拉取请求并自主地解决它们,从而使整个系统更加有效?
结尾的思考
当我们接近前沿悖论,当Transformers和扩散模型的新奇性逐渐消失时,生成式AI市场的性质正在发生变化。炒作和快速展示正在为真正的价值和完整的产品体验所取代。
在红杉美国,我们仍然坚定地相信生成式AI。这个市场起飞所需的条件在几十年的时间里已经累积起来,市场终于到来了。杀手级应用的出现和终端用户需求的巨大规模加深了我们对市场的信心。
然而,Amara的法则——我们倾向于在短期内高估一项技术的效果,在长期内低估其效果的现象——正在发挥作用。我们在投资决策中运用耐心和判断,密切关注创始人是如何解决价值问题的。公司使用的共享剧本来推动模型性能和产品体验的界限,使我们对生成式AI的第二阶段感到乐观。