几年前,宝妈群体扛起数据标注的大旗,仅需基础的电脑操作能力和足够的细心耐心,识别文本、拉个框便可胜任,被称为人工智能末梢的“流水线民工”;而如今,大模型热下的后半场,这一业态吸引来无数青年群体,他们凭借专业的知识储备和个人理解,不仅要给机器“挑错”,还要教对方“调优”,做起了AI的首个“启蒙师”。
求职者之变,源于市场需求之变。对AI数据标注这一新业态,北京商报记者注意到,有公司花费超十亿的高价投入,也有公司打出自建自管的“持久战”,还有公司仅在一年中就发展出上千人的规模。
其中,不乏蚂蚁、百度、字节、美团等大厂高价“挖人”,相较传统的数据标注,他们更青睐有专业和经验多重“buff加身”的复合型人才,由此,一场从流水线民工到标注领域专家的职业巨变,正悄然铺开……
大厂高价“挖人”,有人月薪高至5万元
尽管出身法律专业,但杨威(化名)决心进入数据标注行业。
和其他“00后”一样,作出决策前她没有过多犹豫,吸引她的点是觉得这个新职业比较“酷”。
“给机器人打工,接触科技前沿,这泼天的富贵终于轮到了我头上!”揣着对人工智能的好奇心,杨威在一家法律数据公司的驻外项目组获得了一份“数据标注师”的实习工作,目前,她所在的公司已经具备为客户提供合同大模型服务的能力,而她所承担的数据标注,则是对合同中需要提取审查的要素进行框选,进而让大模型更具学习能力。
就像教孩子蹒跚学步,大模型的每一次进步,都有数据标注师的引导。杨威称,她每天都会在扫描好的合同上框出数据“键值key”对应的“属性值value”,如合同中的双方当事人、签约时间地点、合同金额、验收条款、违约责任等,一份合同大概有30-60个key与value对应。
在建立这样的连接和人工标注后,机器学习时就能知道合同里当事人在什么位置、保险条款如何体现、违约责任在合同里是否有,进而发挥合同大模型的作用——协助更高效的合同审查。
“事少钱还多,有趣又有价值”是杨威对这一职业的评价。虽然文科出身,但能接触到前沿科技,还能实现财富积累和个人价值,何乐而不为?
是否“事少”未可知,不过“钱多”已有多方佐证。北京商报记者从多位受访者处了解到,从事普通的初级AI数据标注员,一般月薪在数千元至万元不等,但大多数人将目标瞄准的是高级AI数据标注师甚至专家,月薪一般都会过万元,高者甚至达到5万元。
此点从公开招聘来看同样有所体现。北京商报记者注意到,有招聘网站设置了AI数据标注师招聘专场,新增职位1476个。其中,包括百度、字节、美团等大厂,均在AI数据标注市场花高价“挖人”,月薪多数在1.5万元上下,专家级别能给到5万元甚至更高。
从在招的多个岗位来看,“有相关工作经验、有项目管理能力”是基本要求,一些高级AI数据标注专家职位,除了数据处理、特征提取、模型训练外,还需负责深入研究AI数据科学领域、主流AI框架等,结合公司的业务场景,评估引入新技术并应用落地。
有意思的是,和杨威有着相似想法的“00后”还有很多。北京商报记者采访了解到,或出于对人工智能的兴趣,或出于不错的薪资水平,如今,许多正在求职中的毕业生、拓展新职业可能的年轻人,均将眼光投向了AI数据标注,为金融业、无人驾驶、智能客服、新零售等人工智能场景提供数据支撑。
对此,蚂蚁集团数字天蚂总经理徐怡悦同样向北京商报记者透露,招聘过程中确实发现有不少大学生逆流回归的现象,不少大模型标注师中,越来越多大学生更愿意回到家乡承接这类工作,她介绍,“这个职业更看重能力和经验,不局限于个人位置和场地,对标大城市来看还能拿到较高工资收入,确实能吸引不少年轻人群体” 。
市场偏见仍存,高学历人才看不起流水线
求职者的选择,离不开市场需求的扩大与产业的渐渐成熟。随着人工智能的蓬勃发展,庞大的数据标注需求,推动着我国数据标注产业市场的快速增长。数据标注企业不断涌现并相继落地三、四线城市。
不过,对于AI数据标注师这一新业态,有人向往,也有人不屑一顾。不同于杨威的新奇,来自某211高校计算机专业的王林(化名)坦言,画框、分类、评级,这样“机械”的数据标注工作似乎并没有什么门槛,也不会进入人工智能、计算机、深度学习专业学生的求职意向单中。
这样的情况并不少见,在北京商报记者的多个采访对话中,不少人也发出疑问,数据标注不就是打打标、画个框?难道还有什么特别高的要求吗?
殊不知,王林口中所称的机械式工作,仅仅是数据标注业态的“过去式”。北京商报记者了解到,传统的数据标注工作,主要以“打点”和“画框”为主,执行的是已成客观事实的标注行为,是什么就是什么,需严格按照既定的标注规范进行。
也正因此,曾经的数据标注被称为AI领域的流水线“民工”,有电脑就能做,人群主要为低学历及兼职人群,月薪为数千元。
而现在市场热招的大模型标注师,不再是计件式、简单化,更像在做阅读理解。由此,对于人才的需求也更偏向复合型,需要更为综合的专业能力和表达能力。
作为人工智能算法的“燃料”,数据是人工智能实现应用落地的必备要素。大多数未加工的原始数据需经过专业的标注和处理,才能被有效转化为有价值的信息。事实上,从更狭义的角度来看,数据标注师的工作不仅仅是简单的分类或标记,而涉及到对原始数据进行深入理解,然后以一种机器可以识别和学习的方式进行标注。这个过程对于训练机器学习模型来说至关重要,因为高质量地标注数据可以显著提高模型的准确性和效率。
但正如王林的表态,即使清楚数据标注对大模型优化的意义,总还是认为“这一岗位与算法工程师、大模型架构师相比没那么高端”。“我们在招聘过程中,确实会遇到不少对数据标注师的成见,想要吸引复合型人才比较难。” 徐怡悦向北京商报记者坦言,“一方面,不少人群对数据标注岗位的认知还没有转变;另外,我们更需要行业专家,如具有多年从业经验的律师、主任医师,但这些人才本身在自己的领域就十分优秀了,要想把他们挖掘过来帮助我们做标注非常难。”
为了打破成见,将社会标签从“工厂流水线”转型“标注专家”,是企业侧吸引复合型高学历人才的一大手段。在蚂蚁,数据标注师或许更应该被称作AI训练师。他们深度参与大模型标注的全生命周期,包括模型训练阶段的数据准备、强化训练以及特定领域的微调,模型上线之后的能力评估、对客安全管控等工作。
北京商报记者从知情人士处了解到,不少大厂招聘的大模型标注人员,本科学历比例达到六成以上,还有的已达到100%,甚至很多专业领域的标注人员都是硕士或博士学历。要求提高,自然“地位”提高。他们的身份就不再是“流水线”标注员,而是“领域标注专家”甚至是“解决方案架构师”。
随着医疗、金融、法律等专业领域大模型的开发应用,如今行业对数据标注的专业性也有了更高的要求。中国信息通信研究院人工智能研究所高级工程师李荪指出,未来大模型向行业领域深耕落地,对行业的数据和知识需求会更多,因此对数据标注人才的专业知识和技能要求会更高、更强。此外根据不同专业领域的需求,数据标注服务定制化需求更多、安全合规也会更严,企业端对人才培养体系和产业运作模式需要更加的创新,以适应新质生产力对生产关系的需求。
“不过,在这个过程中也会出现很多风险,应该重点注意、加强防范,例如数据隐私泄露、数据伦理安全、数据投毒检测、数据合规审计和数据质量控制等。” 李荪强调。
十亿级投入,新用工模式受追捧
懂算法更懂专业知识、能操作细节也能产出方案,这样的“复合型人才”,成为一个合格数据标注师的培养方向。
从“流水线民工”进化至行业专家,对于数据标注行业的转变,蚂蚁集团智能标注专项负责人林城深有所感。“数据提质和强化训练阶段将直接影响大模型的训练效果,同时,准确的效果评测和防御能力的建设可以引导大模型持续优化合规应用。”林城说道,因此,不管是将标注人员所掌握的一些知识转化成数据提供给大模型训练,还是对大模型的评测、校准,都需要行业专家才能产出。
以金融管家为例,大模型回答诸如金融保险的分类、资产如何配置等话题,所需知识在网络中都不是结构化的,没有成文的东西可“喂养”。这时,AI训练师就可以通过自有知识的转化,使大模型学习更多。
但“缺人”仍是目前众多大模型研发大厂最棘手的痛点。
企业也在尝试新的应对之策,例如有大厂正在探索基于大模型的新用工模式,对岗位位置和场地不设限制,更多要求的是个人的经验和能力。
同时,也在尝试跑通“更高端的众包模式”,增强用人灵活性。例如,在职律师以兼职的方式参与数据标注的指导工作,既能获取额外收入,也能保证较高的产出。
在复合型人才紧缺的情况下,自建自管自主培养的模式也成为不少公司的选择。北京商报记者了解到,百度、字节等公司均在自建数据标注团队。有知情人士表示,大厂对AI数据标注给予了极高的重视,有公司在该领域的投入高达上亿甚至十亿级别。另有公开信息显示,百度目前已与各地政府合作共建了十多个数据标注基地,提供给上万个就业岗位。
“将所有的大模型训练资源集中在一个地方,统一规模化管理,从而服务上游的各个大模型基座训练应用,一方面方便各个项目之间的资源协调,另一方面也有利于将数据标注方法论沉淀、复用,形成大模型全体系提质增效。”林城评价。
“数据标注这个业态一直存在,人工智能的发展,对数据标注产业的形成和培育起到了非常重要的作用。”李荪总结到,在发展过程中,当前数据标注产业已包括众包模式、专业数据服务模式、自建团队+外包团队服务模式、第三方专业服务等新业态新模式。从人员结构上来看,呈现多样化、多层次、多技能型发展趋势。
知名经济学者盘和林则提出,数据标注企业需要向数据服务商转变,因为AI向多领域发展,机器学习所需要的数据类型将越来越丰富,预标注需要响应客户定制化要求。
从“挑错”到“调优”,背后的AI之变
从最初的“挑错”工作,进化至高阶的“调优”,数据标注之变,源于AI需求之变。
有人说,从前的AI,仅是一种看不见摸不着的底层技术,而进化后的AI,则更像是一个需要驯化的智慧生命体,需应对千人千面的需求。
尤其是近两年来,大模型开发进入深水区,行业也从“百模大战”进化到“价格战”,如何实现大模型的商业化落地成为各大厂商的一大考题。近期,阿里、百度、字节跳动等各大厂商纷纷降价,在抢占市场的同时,也促进大模型应用的快速落地。
可以看到,不管是在金融、医疗、教育、制造业,还是身边触手可及的餐饮、消费、出行,人工智能在以更快的速度应用至各行各业,并以看得见摸得着的方式不断拓宽边界。
这背后自然带来数据需求的扩大与精细化。李荪将训练数据比作为人工智能编制高质量的教材。传统的深度学习范式下,模型训练是“有监督”学习,数据从定向采集、精细化标注到训练,是全程陪伴式课堂教学,主要解决感知智能问题,教会机器对客观信息做基础性的准确判断。在大模型时代,学习模式转向“自学+专业培训式学习”,主要解决“感知+认知”智能问题,教会机器推理、涌现,所学习的知识的广度和深度进一步扩大了。
AI的变革,还使得大模型标注新兴模式出现,形成“用魔法打败魔法”的风景线。例如,通过大模型植入标注过程,逐步去做一些高效辅助,甚至是少量替代人工。
这会带来人才与就业的焦虑吗?答案是否定的。“本身是人训练了模型,模型进一步又将人不断地替代。所以未来的趋势是对人的要求不断叠高,人永远去做最顶端的最难的事情,再把这些经验转化下来。” 徐怡悦说道。
“AI对行业的刺激,使得复合型人才更被市场所需要。”在林城看来,这也预示着数据标注下一个竞争维度——随着自动化和半自动化标注工具的快速发展,能够充分理解、熟练运用这些先进技术来提高标注效率和准确率的标注师,能将其专业知识转化成产品能力、算法能力的标注师,将更具竞争力。
“随着大模型的深化迭代,更加专家化、垂类化的数据标注需求一定会越来越多。”一资深业内人士同样说道。正如量子位智库发布的《中国AIGC数据标注产业全景报告》显示,大模型时代,数据标注人才缺口或达百万,前景相当可观。
对此,李荪也预测,随着大模型产业的持续增长、数据处理技术不断革新升级、行业场景专业数据需求逐步增加、全球化人工智能发展等因素影响,市场对人工智能训练师、数据标注师、提示词工程师、模型基准测试等人才岗位需求将会更加强烈,大模型产业正值爆发期,AI数据标注师后续发展前景将更加广阔。