□川观智库研究员 黄爱林
继“AI淘宝”之后,近日拼多多也宣布入局大模型,大模型正在影响着各行各业,数据标注也迎来新机遇。量子位智库发布的《中国AIGC数据标注产业全景报告》(下称《报告》)显示,大模型时代,数据标注人才高学历多领域成硬指标,缺口或达百万。
数据标注是指人工对原始数据(文本、图片、语音、视频等)进行分类、拉框、注释、标记等,操作后给机器可识别的信息,有网友戏称,数据标注是流水线工程。
《报告》认为进入大模型时代,数据标注将重新洗牌。数据标注行业从劳动密集型向知识密集型转变,从业者从专科为主变为本科及以上学历、多领域专业人才聚集,未来五年人才缺口将达百万量级。
川观智库综合多方信息后认为,上述趋势源自两方面:一是可靠的大模型需要高质量的训练数据支撑。数据的设计、改进和质量评估是实现可信AI的关键。数据标注从简单的拉框、描点、转写变为对数据进行排序、修正、生成和打分,标注要求从客观认知变为主观理解,对从业者的专业逻辑、核心价值观有较高要求。如百度组建的数据标注团队实现本科率100%。二是大模型动辄千亿的参数量需要大量训练数据作支撑,如果说以前至少使用10万条训练数据来保证模型的有效性和可靠性,那么大模型时代的数据量则以万亿为单位。以ChatGPT-3的大模型为例,Open AI使用了近 1 万亿个单词和45TB的数据量。
目前数据标注产业仍在高速发展期,未来五年年复合增长率在27%左右,产业规模将达百亿。四川高校众多、人才资源富集,拥有良好的数据产业基础,同时缺少专业数据服务商,鼓励更多四川企业入局数据标注行业。