百度集团专利事务部总经理崔玲玲发布“2024百度十大科技前沿发明”:百度人工智能领域的前沿专利发明,涵盖了从基础算法到应用场景的全方位突破。据国家工业信息安全发展研究中心、工信部电子知识产权中心今年4月份发布的《新一代人工智能专利技术分析报告》显示,截至2023年底,百度在人工智能全领域专利申请量19308件、授权量9260件,连续六年位居国内第一;在以大模型为核心的新一代AI领域,百度专利申请1432件、授权651件,成为技术创新和专利布局领军者。根据专利数据库机构IFIclaims发布的生成式人工智能专利图景洞察,百度生成式人工智能专利申请量跻身全球TOP10,是唯一进入该榜单的中国创新主体,并且专利技术涵盖文本、图像、语音、视频四大基础领域,成为这四个领域全面布局的全球四家公司之一。
11月12日,以“应用来了(Applications Are Here)”为主题的百度世界2024即将在上海举办。作为一年中备受瞩目的科技发布会,百度也将发布最新成果,再次带来令人瞩目的技术突破和产品发布。
百度2024十大科技前沿发明,具体如下:
该发明技术创新性地引入了思考模型,使智能体具备了任务规划、工具调用、知识增强和反思进化等多重能力。通过系统化的设计与核心能力的定向优化,能够低成本地支持不同应用场景下智能体的规模化建设与部署;通过建设大规模仿真能力,加速智能体构建与分发。该技术系统已成功应用于文心智能体平台、商家智能体、文心快码等多个重点场景,显著提升了智能体的研发效率,降低了研发门槛。其中,商家智能体通过规划+专家的多模型协同技术和大规模仿真技术,提升反思、进化和使用工具的能力,构建AI营销能力;文心快码依托代码推荐和智能体系统,与传统DevOps工具链有机结合,推动人机协同结对编程的深度探索与落地。
二、基于大模型高效训练框架的多模型协同进化技术
该发明技术从工程和算法两个角度攻克系列难题。工程架构上,从混合并行策略、通信效率、计算存储优化全方位创新突破,显著提升大语言模型训练性能,支撑文心全系列模型全流程高效稳定训练。算法策略上,研发了大小模型协同的预训练技术,攻克了模型间知识难以继承的技术难题,改变了传统模型的训练范式,降低了新模型训练成本。基于该发明构建了各规模模型的技术壁垒,使文心大模型训练吞吐速度在过去一年提升了4.1倍,支持文心一言高效满足不同需求的广泛业务,赋能千行万业。
三、基于大模型和知识检索增强技术的多模态内容创编一体的智能系统
本发明技术综合运用知识增强、多源内容解析、融合式编辑、检索增强文生图等技术,解决了专业长文及多模态内容生成质量弱、创编无法共享容器、文生图主体准确性差等问题。检索增强文生图,旨在通过智能判断用户需求自适应处理参考图,进而基于混合模态的生图系统显著提升了生图主体的一致性,有效弥补长尾内容刻画不准确的短板,整体效果远远超过文生图原生系统。百度文库已经在基于用户指令及上传内容实时生成行业研报、演示文稿、思维导图、画本漫画并支持一站式编辑、跨模态转换、通用/个性化生图等复杂任务方面取得了显著的效果提升。2024年8月,极光旗下月狐数据发布报告显示,百度文库智能PPT市场份额已达八成,近3月用户规模复合增速达23%,增速远超行业水平。
四、支持规模化的自动驾驶定位和车道级地图生成技术
该发明技术突破了传统模式的效率和成本问题,降低了地图制图成本95%,车道级道路里程超过360万公里,实现全国超过41000个城乡镇道路的全覆盖。基于地图数据进一步构建的多模态传感器融合的自动驾驶高精定位技术,精度达到厘米级,极大提高了可量产性,将车端定位依赖的地图包体积降低97.5%,可靠性达到99.9999%,全面支撑目前萝卜快跑全无人驾驶的规模化运营,在高架桥下、多层路、隧道等各种复杂困难场景实现全无人驾驶。
五、面向大模型智能化的个性化记忆机制
该发明技术创新性地提出了一套全面的记忆机制,涵盖记忆加工、存储、管理、触发和利用五大模块,赋予大模型个性化记忆能力。记忆加工借鉴人类海马体机制,实现了对全场景用户信息的深度理解和精准加工;记忆管理支持用户主动与系统自动的增删改查,确保了记忆库的实时更新与准确;记忆触发和利用,通过相关记忆的推测生成,辅助大模型产生更加拟人和个性化的回复。该发明技术已广泛应用于智能ai助手、数字人等场景。
六、基于大模型的超拟真数字人建模、驱动与生成系统
该发明技术提出了一整套的超拟真数字人建模、驱动和生成方案。针对真人数字人,研发了数据驱动的人像建模、跨模态驱动和人像视频生成大模型,实现了自然、拟真的数字人内容生产,独家支持大幅动作&遮挡场景的直播人像克隆,并实现了首个全身智能驱动直播间落地。针对超写实3D数字人,基于文心大模型研发了模态迁移和多智能体协作技术,实现了分钟级制作媲美影视大片、3A游戏的超写实数字人形象及运营内容。本发明技术已广泛地应用于数字人直播、视频生产、智能体等众多真人和3D数字人的产品中。
七、基于大模型的生成式商业检索系统
该发明技术变革了传统的 “索引-召回-排序”流程,扁平化系统漏斗,减少信息损失,通过构建索引学习任务,将商业信息编码进模型参数,实现“模型即索引”,利用大模型的理解和推理能力,实现“生成即检索”,新范式显著提升系统定向效率120%。该发明所涉及项目业界率先落地,实现大规模工业化应用,生成式大模型结合商业搜索场景取得多项技术创新,创意丰富度提升37倍,创意质量提升92%,获得了显著的业务收益和广泛技术影响力。
八、大模型数据飞轮技术
该发明技术通过整合用户反馈、执行反馈和自监督反馈等多来源和形式的信息,自动识别模型缺陷并高效合成高质量、多样化的训练数据。同时结合多源反馈的强化学习方法,显著提升了模型训练效果。该创新技术构建了一个能够持续自我改进的数据飞轮,有效突破了大模型的数据瓶颈,降低了数据获取成本,提高了大模型的适应性和鲁棒性,提升了模型在不同任务场景下的泛化能力,加速大模型持续进化。
九、大模型高效推理技术
该发明技术提出的高效推理技术,底层模型层基于飞桨框架,在推理架构方向,结合主流的PrefixCaching、Lookahead、PagedAttention、PD分离等方向持续创新,并将各项技术高效结合,大幅提升模型吞吐和性能。在大模型压缩方面,采用大模型无损量化技术,通过激活自适应分段平滑与权重联动重排等方法,在业内率先实现了对百亿千亿级大模型的高效无损压缩。该发明支持多种大模型压缩和推理加速手段,目前已应用于百度智能云千帆大模型平台等核心业务,减少模型推理的资源消耗,节省大模型部署成本超50%,提升模型性能,模型吞吐提升3-5倍。
十、用户数据反馈驱动的检索生成系统
该发明技术提出的检索生成系统,能够结合用户行为反馈信号,实现快速自我强化。通过满意度建模和强化学习直接对齐用户偏好,并利用用户反馈触发系统快速反思,解决了传统数据应用时专家反馈效率低和用户偏好建模难的问题。基于该框架的检索生成系统已覆盖18%的搜索流量,广泛应用于文字、视频、图片等搜索场景。多元用户反馈的规模大、可循环的特性,使系统能够快速适应数据、产品和环境的变化,帮助系统自动化寻优,加速系统向理想状态演进,具备极高的实用价值和市场竞争力。