6月14日,AI行业顶级盛会2024北京智源大会正式拉开帷幕。作为大会的重要组成部分,智源大会“人工智能+数据新基建”论坛同步召开。大会现场发布了“北京人工智能数据运营平台”(包括平台上线、重磅数据集开源和数据工具FlagData3.0),并启动了“行业数据集—场景应用创新计划”,为千行百业大模型落地构筑重要的数据基础。
“北京人工智能数据运营平台”是在国家发展改革委、国家数据局指导下,由市发展改革委主导,在市委网信办、市科委、市经信局、海淀区政府、中国网络空间安全协会人工智能安全治理专委会等单位支持下,由智源研究院牵头与京能数产等单位共建推动成立开放型数据运营平台。
平台在实现数据的汇聚管理、处理与加工等功能基础上,能够提供多种模态的数据标注功能,支持多种数据汇聚和使用形式。目前平台已汇聚超过700万亿字节的通用数据集和4.33万亿字节的行业数据集,未来还将不断扩充数据规模,为大模型行业发展提供坚实的数据支撑。
“这次开源的行业数据集,几乎每一项都远超全球已经开源的该行业数据集总和,是全球最大的多行业中英双语数据集。”智源研究院副院长兼总工程师林咏华说,目前数据集包含医疗、教育、法律、新闻等18类行业数据,未来将进一步扩展到30类左右。
目前,数据运营平台支持开源开放、积分共享、数算一体3种数据运营模式。“开源开放”模式允许用户在遵守使用协议的前提下自由下载使用;“积分共享”模式面向数据工作组内的成员,根据数据贡献实行积分制,即成员单位贡献数据,按照计分标准获取相应积分,同时获得共享数据的权益;“数算一体”模式针对高价值数据,仅在平台上进行数据加工、训练使用,保证数据不出安全域。
据介绍,依托数据运营平台,海淀区会同智源研究院等单位积极推动政务、社会与企业数据开放共享,打破数据孤岛。同时探索建设北京数据基础制度先行区,统筹布局算力与数据存储基础设施,为数据资源创新应用提供技术与制度保障。
未来,海淀区将以加速构建具有全球影响力的人工智能创新策源地和产业高地为目标,通过整合包括数据要素和应用场景等多方资源,推动人工智能技术迭代发展与落地应用,以高质量数据要素驱动人工智能技术创新突破,为实现科技强国贡献力量。