人工智能将如何重塑我们的工作和生活?有人说“所有的行业都值得用AI重做一遍”,有人说“未来淘汰你的不是AI,而是会用AI的人”……在这个“AI机遇”和“AI焦虑”并存的时代,如何与AI共存成为从打工人、管理层到创业者都在思考的话题。
2024年总理政府工作报告指出,大力推进现代化产业体系建设,加快发展新质生产力。充分发挥创新主导作用,以科技创新推动产业创新,加快推进新型工业化,提高全要素生产率,不断塑造发展新动能新优势,促进社会生产力实现新的跃升。
围绕人工智能,政府工作报告强调,深化大数据、人工智能等研发应用,开展“人工智能+”行动,打造具有国际竞争力的数字产业集群。与人工智能相关,报告还提到,适度超前建设数字基础设施,加快形成全国一体化算力体系。
可以看出,人工智能将成为发展新质生产力、推进新型工业化的重要引擎。今年以来,南方都市报启动“向新而行·探寻新质生产力”系列调研活动。本期调研聚焦“人工智能+”产业,并走进微盟集团、魔珐科技、蜜度科技等大模型研发及应用企业,以及位于上海徐汇区的人工智能大模型产业生态集聚区“模速空间”。上海“模速空间”创新生态社区暨人工智能大模型产业生态集聚区于2023年9月28日揭牌,目前已有近60家企业入驻,包括蜜度蜜巢、HiDream.ai智象未来、MiniMax(稀宇科技)、星环科技、云璞信息、百思玛特、觉非科技等。此次调研与企业展开深度交流,希望联合多方力量共同探索人工智能、大模型等技术变革给各行各业带来的发展机遇。
文生视频
Sora能否投入市场 AI生成内容可控性更应思考
今年年初,OpenAI旗下文生视频模型Sora横空出世,给仍在文生文、文生图赛道上探索的企业带来巨大冲击,也加剧了行业从业者的焦虑:要不要跟进文生视频?需要准备多少进场资金?
3月14日,南都记者走访位于上海市宝山区的微盟集团总部及其短视频直播拍摄中心。去年5月,微盟正式发布基于大模型的AI应用型产品“WAI”,今年微盟WAI将发力生成视频商业化应用。值得关注的是,本月初,微盟集团通过收购上海拌饭信息科技有限公司正式入局短剧赛道,短视频营销和短剧将成为微盟的重点发力方向。
“目前网上对Sora的谈论多以营造焦虑为主,只通过几个Demo就吹嘘它可以实操,这是很不实际的,”微盟集团AI负责人裘皓萍谈道,“比如我们的文生图技术,从诞生到真正有商业化落地的探索,用了整整一年时间,而且是集团大力支持、全力跟进的背景下。”
在裘皓萍看来,Sora的技术能否投入市场有三个关键问题:一是成本,Sora生成一段60秒的视频需要多少张显卡能驱动?假如需要10张显卡驱动,会有多少人愿意为之买单。其次是成功率,我们看到有的视频很惊艳,背后需要生成多少遍才能达到预期?第三是可控性,商业化落地对内容要精准可控。
AI生产内容的可控性同样是魔珐科技创始人兼CEO柴金祥在交流中反复强调的。“视频的AIGC有两条核心路径,一是最近比较火的Sora这种路径,需要有海量视频数据,基于这些视频素材训练大模型,然后输出视频,包括Pika、Runaway也都是同一个路径,各家的效果参差不齐。另一条是我们走的这条路径,3D内容的AIGC,通过引擎的方式渲染出来视频。这种路径可以保证视频内容是可以精准控制且可以编辑的。”柴金祥向南都记者介绍,“目前Sora产品没有公开,不可编辑,时长也有限制。虽然这些现状未来都可以改变,但技术迭代发展的曲线到底是陡峭还是平缓?目前都是不确定的。Sora这条路,我认为如果做出来,比较适合创意类视频。”
中金公司发布的研报显示,Sora的表现超越了市面上其他文生视频模型,如Gen2(由Runway开发)、Pika 1.0(由Pika开发)、Stable Video Diffusion(由Stability ai开发)、VideoPoet(由Google开发)等,其优势主要体现在:生成视频时间更长、文字理解能力强,且视频稳定性、一致性、流畅度大幅提升。
但需要关注的是,从训练侧来看,Sora的算力成本理论计算值约为GPT-4的10倍。从推理侧来看,Sora的算力成本理论计算值是GPT-4的约2000倍。“我们认为这需要算力性能更强的芯片来支撑;同时,当前主流GPU单机8卡推理可能面临算力不足的问题,文生视频模型在推理端需更大规模的AI芯片集群支持推理。”中金公司研究报告称。
南都记者留意到,尽管国内互联网大厂尚未有文生视频产品,但腾讯和阿里已相继发布了将图片转换视频的产品。
3月15日,腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click”,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。腾讯方面表示,图像到视频生成的技术在电影内容制作、增强现实、游戏制作以及广告等多个行业的AIGC应用上有着广泛前景,是2024年最热门的AI技术之一。
3月19日,淘天集团旗下阿里妈妈技术团队推出高保真图片生成视频框架——AtomoVideo(阿瞳木视频),可将图片素材自动转换为高质量视频动效。目前,该技术已在阿里妈妈的万相实验室、广告投放平台等应用场景上线,所有商家都可以体验“图片一键变视频”的人工智能新技术,快速生成创意短视频。
AI+服务
企业服务行业有望成为率先受益大模型迭代落地场景
尽管行业内对于文生视频有着无限憧憬,但相较于押注一个充满不确定性的新技术,如何利用自身业务优势实现落地应用才是国内AI企业更关注的。
IDC发布的《2024AIGC应用层十大趋势白皮书》报告显示,应用层面创新成为2024AIGC产业发展的确定方向,对于一大批AI技术实践的创新型企业来说,找准落地场景是发挥AIGC实践价值的重要前提。
去年5月微盟发布了基于大模型的AI应用型产品“WAI”。官方数据显示,截至目前,借助微盟WAI提供的应用能力,微盟营销包括创意图片在内的广告内容生成效率已提升50%以上,AI生成内容在广告业务的可用率已经高达70%。
在裘皓萍看来,“微盟SaaS产品的AI化变革主要包括三个关键词,一是全民AI,计划从3月1号开始用1个月时间让所有的存量客户都能用上免费版的AI技术能力,包括写商品标题、推广文案等;二是实现主动交互,AI可以主动帮助企业做一些智能化辅助;三是扩展场景,除了营销内容生产外,还能帮助企业进行洞察、分析、配置等等。”
“目前企业是没有办法直接拥抱大模型的,因为企业会有很多个子品牌,而不同的子品牌面向的是不同客群、有不同调性或不同价位段,小红书、公众号等不同的分发渠道也可能有不同风格,同时图片模型可能有自身的风格偏好。”裘皓萍认为,未来一个企业应该会拥有一个模型矩阵,“模型矩阵中这些模型以不同的形态来为你做服务,可能是工作流,可能是文生图的模型风格,也可能是特定的一个小的机器人。”
去年以来,在国内大厂相继入局AI大模型背景下,企业服务行业有望成为率先受益大模型迭代的落地场景。2023有赞春季发布会上,有赞CEO白鸦正式发布基于大模型的AI+SaaS服务:加我智能。2023年7月,用友网络发布企业服务大模型YonGPT。但截至目前,企业客户对于大模型产品和付费意愿以及续费率仍不明朗,每一家都在思考如何将AI技术打造成产品、培养为刚需。
AI+3D数字人
3D数字人趋向0成本 “输入一张头像即可生成”
过去一年,随着AI风口一起升温的还有数字人产业。越来越多的数字人如雨后春笋般出现在大众视野中,但多是“对口型”,面部表情和肢体动作僵硬,用户体验大同小异。
“三维内容的AIGC是比视频生成更高的一种内容形态。3D的数字人可以改变发型、妆容、服装,并且动画、声音、镜头、灯光全部都能够实现AIGC化”,魔珐科技创始人兼CEO柴金祥表示,公司成立之初就坚持走3D数字人而非2D数字人的技术路线,一方面避开同质化竞争,另一方面3D内容的门槛更高,可以形成技术壁垒。
魔珐科技成立于2018年,是一家以3D数字人和AIGC为核心技术驱动的科技公司。旗下AIGC产品“有言”可以实现3D视频一键生成,已应用于培训、电商、金融、快消、广电等领域。
谈及“人工智能+3D数字人”实现的难点问题时,柴金祥指出,“传统的文生图文生视频,所有的训练数据网上都有,大家无非是拼算法跟算力。但3D视频生成最关键的问题在于数据。3D视频生成训练需要非常高质量的3D数据,而3D数据不同于图文视频数据,其需要借助内容创作者生产为基础,因此成本较高,难以得到,其次是算法与算力问题。”
“我们希望每家企业、每一个个人都能够用AI生成一个3D的超写实数字人,这个数字人有形象、会表达、够专业,可以用做发布会、产品介绍、培训、客服种草视频、招聘等等场景。”柴金祥向南都记者介绍道,一年前能实现这一愿景的数字人制作成本高达数十万,如今可以降低至数百元,接下来甚至趋向于“零成本”。
从数十万到零成本制作数字人,背后并非企业补贴、“亏本赚吆喝”,而是源自技术的快速迭代,“包括数据在一直不断地积累,算法在持续迭代,达到某一个点之后,我们突然发现能够实现高质量、高效率、低门槛、规模化地用AI制作视频。”柴金祥称。
成本的降低意味着3D数字人不再只面向企业市场,可以走向大众市场。因此今年3月,魔珐科技旗下AIGC视频产品“有言”正式面向公众开放使用。
“C端是我们今年要打的一个方向,这意味着门槛要足够低,我们需要从做项目制转向做产品”,柴金祥还进一步透露,“有言”将会在今年6-7月份正式上线一个可以将个人形象AIGC化的功能,“输入一张头像就可以生成一个3D数字人,用户也可以自己捏脸、制作自己的专属数字人,整个过程没有额外的收费,唯一的成本就是算力。”