2月16日,人工智能领军企业OpenAI发布了Sora,一款能够根据文本描述生成逼真视频的AI模型。消息一出,瞬间点燃了全球科技界和社会各界,引发了关于AI技术发展、未来产业变革等领域的强烈关注。在全球科技领域,一股新的浪潮正在兴起,这就是以人工智能为主导的文生视频时代。
文生视频时代以人工智能为核心,以视频为主要传播媒介,正引领着全球的信息传播方式和内容消费习惯发生翻天覆地的变化。与此同时,国内生成式人工智能初创公司HiDream.ai 智象未来悄然兴起,作为一家专注于多模态人工智能生成内容(AIGC)的公司,HiDream.ai 智象未来团队在图像和视频生成领域取得了显著的成果,为行业的发展注入了新的活力。
智象未来在成立之初即立下做国内最强的多模态视觉大模型和应用的目标。2023年3月,智象未来(HiDream.ai)公司正式成立,种子轮融资完成;2023年5-6月开始团队组建核心团队组建,算力资源到位;同年8月,大模型发布千象1.0上线,智象大模型参数超 60 亿;9-10月,产品/技术迅速迭代,大模型参数超 100 亿,电商产品“E 象”上线,入驻上海模速空间;12月,成为首批通过模型和算法双备案的公司,种子+轮融资完成,是商业化阶段性的里程碑;2024年1月,市场拓展/用户增长持续进行,千象月活突破5 万,签约了20多个中腰部电商客户和2000家中小电商客户。
自OpenAI的GPT-4、谷歌的Gemini等巨头纷纷涉足多模态大模型以来,智象未来凭借其专注于生成式图像、视频的细分赛道,迅速崭露头角,成为国内起步最早的初创公司之一。智象未来的成立背景深植于对人工智能未来发展的深刻洞察。公司立足于自研的生成式多模态基础模型,聚焦于多模态内容的生成,旨在填补大型公司在视觉多模态生成领域的空白。如今,智象未来已经形成了“一横一纵”的发展战略,其中“一横”是指基于底层多模态大模型推出的“Pixeling千象”应用,为泛设计师人群提供专业化服务。
众所周知,在人工智能领域,技术创新和突破是推动行业发展的关键。HiDream.ai智象未来的主要产品和服务包括自研的“智象视觉大模型”,这一模型参数超过130亿,能够实现文本、图片、视频等多模态内容的生成。此外,公司还推出了两大应用平台:Pixeling千象和E象。Pixeling千象是一个全中文易上手的AIGC创作平台,提供图片生成、视频生成、图片编辑等功能,极大地提升了设计全流程工作效率。而E象则是专为电商卖家打造的AI制图工具,通过一键生成海量真实场景商品图,助力卖家降本增效,打造爆款。两者均支持API调用,为开发者提供了极大的便利。
在基础模型层面,智象未来团队已经完成了图像Diffusion Transformer架构130亿参数规模的训练,并计划在2024年Q1推出重大迭代的图像基础模型(V3.0)。同时,该团队也在积极将这一技术迁移到视频生成领域,预计在三月底和五月分别两次实现视频基础模型的大幅升级(V2.0)。智象未来的独特之处在于对视频生成过程中的关键要素——视觉故事性、内容确定性、超高清画质(4K/8K)以及全局和局部的可控性——的专注;在产品层面,智象未来团队在文生视频上创新了一套自己的思路。他们不直接从文本向视频转换,而是从文本先向图片转换,生成故事板(storyboard),再由此在时间维度上前后进行拓展。这种方法不仅提高了视频生成的稳定性、细节处理和美感,还为视频生成的时长拓展提供了可能性。通过大语言模型自动生成分镜头的脚本(script),然后针对每一个镜头脚本,通过“文生图”的方式生成一幅图(关键帧),将这些关键帧通过“图生视频”的方式转换为单一镜头的视频,最终将这些视频拼接成一个完整的视频,形成15秒甚至更长时间的多镜头视频;在电商领域,智象未来打造的AI制图工具已成为国内唯一能在短时间内与Sora相媲美的自主大模型。这一工具的出现,不仅为电商行业提供了强大的视觉支持,也为行业内的创意工作者提供了更为便捷和高效的创作手段。
值得一提的是,智象未来在视频生成商业化探索方面也走在了前列。它是全球首个面向AIGC+Video商业应用产品的开发者,这一成就标志着智象未来在视频AI领域的研发实力达到了国内领先水平。智象未来的研发团队,凭借其在视觉多模态生成式人工智能领域的深厚积累和创新能力,已经成为国内视频AI领域最强的研发团队之一。
文生视频时代的到来,标志着智能新纪元的开启。在这个时代,只要我们敢于创新,勇于适应,就能在这场智能革命的浪潮中找到属于自己的位置,创造出无限的可能性。我们有理由相信,中国AIGC 创业公司在文生视频时代的浪潮中能够乘风破浪,它将在未来的人工智能领域中创造出更多令人瞩目的成就,迎接一个更加美好的未来。