GPT风口下的数据标注员:人工智能背后的“老师”和AI局外人
数据标注员正在工作。受访者供图
ChatGPT大火后,数据标注员迅速进入大众视野,也成了就业新风口。他们有的年薪百万,有的日结两百,但在ChatGPT风口上,作为人工智能背后“老师”的他们却也是局外人,存在被替代的风险。
所谓数据标注员即指,对人工智能原始数据集进行标注、分类、分析和清洗来帮助训练机器学习算法和人工智能模型的职业。数据标注员以入行门槛低,上手快,薪资待遇好也广受县城青年欢迎,目前全国已经建立起多座超千人数据标注基地。
【资料图】
然而,数据标注行业这一新风口同样存在“教会徒弟,饿死师傅”的可能,随着人工智能大模型的迭代这一职业可能面临被替代的风险。目前国外已经出现AI自动标注替代人工标注的案例。那么,在人工智能行业飞速发展的当下,对普通人来说数据标注员是一份好工作吗?数据标注这一细分赛道发展前景如何?目前正面临哪些问题?未来,数据标注行业会被AI标注颠覆吗?
对此,新京报贝壳财经记者采访了数位数据标注员、数据标注行业创业者以及人工智能领域有标注需求的甲方公司负责人、学界人士,试图解答上述问题。
4分钱一个框,每天拉够2500个,数据标注员成就业新风口
作为人工智能背后的“老师”,小雷并不十分明白“什么是人工智能”,也不是很理解“自己是怎么教人工智能学习的”。从每天早上9点上班开始,他的脑子里就只有一件事——怎么完成单日2500个框,达到95%合格率的要求。
几个月前,小雷辞去了工厂车间的工作,应聘成为了一名数据标注员。相较于制造业的灰尘、酷暑和严寒,新工作办公室内有空调和暖气,整洁干净的办公桌上还摆放着新鲜的绿植。
宽敞明亮的办公室里聚集了包括小雷在内的50多名20-30岁的年轻人,他们大多具备大专院校及以上教育水平,乘着人工智能的风口成为了行业基层的数据标注员,每天的工作就是对海量数据进行清洗、分类、画框、注释、标记等操作,转换成符合算法工程师要求的标准交付。
以自动驾驶领域的3D点云标注为例,小雷的单位规定单日标注任务量为2500个框,底薪2500元,合计每个框4分钱,超额完成任务还有绩效工资,这对学历不高,身处河南县城的青年来说,已经算是一份薪资中等偏上的工作。
所谓数据标注即指对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。数据标注是人工智能获取训练数据的主要渠道,应用场景广泛。从语音转录、人脸识别、自动驾驶到AI聊天,人工智能模型训练所需要的海量数据目前几乎全部依赖数据标注员手工标注。
不过,与大众印象中高新技术行业往往需要高学历人才不同,2021年版的《人工智能训练师国家职业技能标准》对该职业的能力特征描述为“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普通受教育程度则为“初中毕业(或相当文化程度)”。
高需求量、低用工门槛为学历层次相对较低的普通人提供了进入办公室工作的机会。2018年,山西转型综合改革示范区与百度合作,建造了基地占地面积超1万平米,数据标注员超2000多名的数据标注基地;在新疆和田,有4000人在当地的数字经济产业园从事数据标注工作;在山东的第一个数据标注基地,已经有1500名从业者。
数据标注员正在工作。受访者供图
基层数据标注员:层层外包下有的到手薪资千余元,人员流动频繁
结束上一份电商工作后,高小贝回到太原老家,在朋友的介绍下开始接触数据标注行业。付费后,高小贝进入培训公司的3D点云项目组,从0基础到逐渐上手再到开始接单,高小贝用了40多天,项目标注单价则为1毛8分钱。
第一次项目回款,高小贝收到了三千四百多元,除去培训费用,还有少部分结余。
与高小贝相比,小雷入职前并未参加任何培训,从完全不懂到单日完成2500个框且正确率95%,单位只给了小雷一周不到的时间,由于从事时间较短,熟练度欠佳,再加上经常返工重标,即使每天多加班2-3个小时,小雷效率最高的时候,单日工作量也只有2000个框左右。
所谓3D点云项目单日2500个框,并不意味着仅是圈出图片中的障碍物,实际上,标注员在工作时还要注意障碍物的尺寸、ID、方向,以及点云是否框全,是否漏框了轮胎点,是否框入了地面点,同时还要判断车在高速行驶时出现的残影是否框选等。小雷认为3D点云标注工作并不算难,但具体操作要求比较复杂,所以很难在单日内大批量标注。
“标注本身就是个重复性的工作。上手不难,难的是都不愿意培养,都喜欢直接能干的。”前数据标注员田先生如此告诉贝壳财经记者。由于缺乏培养机制,再加上职业发展天花板有限,从事数据标注行业接近一年后,本科毕业的田先生选择了辞职。
同为3D点云标注项目,小雷公司开出的标注单价为每个框4分钱,而高小贝所在的培训公司单价则为1毛8分钱,为何会出现如此大的单价差异?
实际上,多位数据标注行业受访者向记者证实,行业内层层外包的现象比较严重,从有标注需求的甲方公司到中标的乙方公司,再到框架下的二包、三包,甚至四包公司,每层都会抽取一定的费用,最后落到标注员身上,标注单价4分钱并不罕见。一位有标注需求的甲方公司项目负责人向贝壳财经记者透露,自家公司的视频事件描述标注,报价一条9毛,最后分到标注员手中单价可能只有几分钱。
此外,由于标注工作的层层外包,标注公司交付时的沟通成本也随之变高,甲方的需求经过层层传达后经常出现沟通不及时,标注标准来回变化的情况,因此返工重标也是大多数基层数据标注员不得不面对的问题之一。
数据标注员低入门门槛的同时也意味着低竞争力,所谓的数据标注行业在中低端市场正逐渐演变为传统的人力资源密集行业。
在每天加班的情况下,小雷一个月到手薪资也只有一千多元,且要忍受由于长时间操作电脑、鼠标而带来的眼睛干涩、手部酸痛感。目前,小雷选择了辞职寻找新的工作。
层层外包模式下,也有原来的从业者,选择了创业。
考虑到从事数据标注工作个人产出有限,且行业表现为多劳多得,高小贝选择了复制裂变,自己投资开办了一家数据标注公司。不到一年的时间内,她的标注公司全职人数达到了20人,公司标注部门每月净营收在2.5万-4万元之间。
此外,从自己的创业经历出发,高小贝的公司还开发了标注孵化业务,提供对个人以及团队的数据标注培训,目前公司已经孵化分公司3家,孵化人数则达到了16人。“市场上割韭菜的公司居多,高额加盟费、分包转包各种情况搞得整体市场乌烟瘴气。但总的来看,行业本身很适合小资本创业、赔率低,如果创业者能接到优质订单,在团队管理、培训流程上得到指导,行业前景还是不错的。”高小贝说。
收入两极分化,高素质人才年薪百万背后?
林霖(化名)也是数据标注行业的头部玩家,他以传统人力资源行业起家,后转型数据标注行业。
“今年人工智能生成赛道爆发,我们公司已经接到了大批量数据标注外包需求,预计今年可以做到十倍营收增长。”林霖对贝壳财经记者表示。
他认为,数据标注行业发展潜力巨大,不断扩张团队规模,提升团队整体素质才能接到一手优质的标注项目。林霖的团队目前全职员工人数上千,其中本科生占比较大,公司在河南、湖南、重庆等多地均设有数据标注基地,服务的客户主要是头部的互联网和人工智能企业。
2020年转型数据标注行业,经历了行业非线性增长的几年,林霖的公司抢占了数据标注行业的小风口,在生成式人工智能标注领域已是业内最大团队之一。
林霖向贝壳财经记者透露,数据标注员的平均薪资一般略高于公司当地平均薪资,尤其是高素质标注人才,薪资待遇则更高。“目前我知道最高的,纯粹做数据标注,不参与算法、研发等,差不多在90-100(万年薪)。”
普通数据标注员月薪两三千,高级数据标注从业者年薪百万,为何会有如此大的薪资差距?
林霖向贝壳财经记者解释,普通数据标注员仅需要对一个标注题目负责,高级数据标注从业者则需要对一个标注环节,甚至对整个标注需求负责;此外,标注业务也根据难易程度分为不同等级,例如在自动售货机订单审核项目,人工仅需抽查机器判断的已售商品是否准确即可,如是否将果粒橙识别为可口可乐,对标注员个人能力要求不高,而在ChatGPT问答规则设计项目中,好的标注员在回答“背诵苏轼《水调歌头》”提问时,不仅会给出诗词全文,还会揣摩提问者提问意图,给出苏轼在中国诗词史上地位如何、此首诗词相关的背景、诗词衍生的其他内容等等。“一个优秀的数据标注员能通过关键词,识别出提问者背后的真实需求是什么,进而设计规则。”在林霖的公司不乏中科院博士从事数据标注工作。
与大部分人印象中数据标注员低门槛好上手不同,林霖透露,数据标注行业其实不乏对高素质人才的需求,例如医药行业、金融行业相关的标注更倾向于寻找有相关教育经历或从业背景的人才标注,ChatGPT人机对话项目则倾向于寻找文字理解能力好的人才操作。
“教会徒弟,饿死师傅”?数据标注员会被AI标注替代吗?
随着人工智能自主学习能力的不断加强,人工智能研究者们已经开始尝试向机器“喂养”未标注的数据与部分半标注的数据,不依赖人工标注的自监督学习和数据标注也已在业界出现。来自苏黎世大学的一篇名为《在文本注释任务上,ChatGPT优于众包工人》的论文显示,用ChatGPT给文本做数据标注的成本不到0.003美元一条,显著低于人力成本。
“教会徒弟,饿死师傅”的传言正在弥漫,数据标注员最终会被AI标注替代吗?
多位学界人士对贝壳财经记者表示,低门槛的数据标注工作的确会被人工智能标注取代,如果大模型的性能已经满足需求,那么直接用大模型的预测作为标签,来蒸馏小模型即可,如ChatGPT已经能够成熟地自动识别和分类文本,并对文本的情感进行分析和评估。不过,也有学界人士告诉记者,虽然自动标注发展越来越成熟,但正确率并未达到100%,而是普遍集中在50-70%。此外,不少数据标注项目其实稍有门槛,对于某些特定领域的标注,人工智能暂时还不能取代人类。
林霖则表示,自己非常看好数据标注行业未来的发展。他认为,人工智能行业的发展无穷无尽:从语音标注到人脸标注,再到自动驾驶领域的3D点云标注,以及近几年大热的ChatGPT类标注。
“与其担心没有项目可接,不如提高自己与时俱进的能力”。高小贝则告诉记者,人工智能领域有一句流传甚广的老话非常适用,即“人工智能行业,有多少人工就有多少智能”。
新京报贝壳财经记者 李梦涵 罗东骏
编辑 岳彩周
校对 卢茜
标签:
GPT风口下的数据标注员:人工智能背后的“老师”和AI局外人
2023-05-07
怎样做良垌清水鸡?-焦点精选
2023-05-07
世界热点评!亚洲之王!浦和红钻2-1利雅得新月 3夺亚冠超越恒大
2023-05-07
喜报:三原两项目入选咸阳市“第八批非物质文化遗产”名录|即时焦点
2023-05-07
物理汽油机的四个冲程(汽油机的四个冲程)_环球资讯
2023-05-07
精选!老虎怎么画凶猛霸气帅气(老虎怎么画)
2023-05-07
《平凡之路》8集过后,牛莉是最大惊喜,人憨话很多,典型演技派
2023-05-07
环球今亮点!任尔东西南北风什么意思啊_任尔东西南北风的上一句是什么
2023-05-06
最新进展!东坝回迁房样板间正在建设!
2023-05-06
长三角地区本轮降雨进入最强时段 降水降温齐“上岗” 环球报道
2023-05-06
怎样做良垌清水鸡?-焦点精选
世界热点评!亚洲之王!浦和红钻2-1利雅得新月 3夺亚冠超越恒大
喜报:三原两项目入选咸阳市“第八批非物质文化遗产”名录|即时焦点
物理汽油机的四个冲程(汽油机的四个冲程)_环球资讯
精选!老虎怎么画凶猛霸气帅气(老虎怎么画)
《平凡之路》8集过后,牛莉是最大惊喜,人憨话很多,典型演技派
环球今亮点!任尔东西南北风什么意思啊_任尔东西南北风的上一句是什么
最新进展!东坝回迁房样板间正在建设!
长三角地区本轮降雨进入最强时段 降水降温齐“上岗” 环球报道
宝马ichanger改色膜超亮金属魂动红,活力,健康,热情,朝气 环球热讯
2023年夏河县重点招商引资项目公告
焦点关注:八年无新增发明专利,毛利率远超同行,海昇药业闯关北交所
世界速递!巴厘岛命案女性死者系在校大学生 还未毕业
七局四胜制的CBA总决赛将于8日开战
从古画古色中触摸夏天
总营收超71万亿!派现首超2万亿!2022沪深两市年报全景扫描 焦点速讯
安全生产警示标识大全(安全生产警示标识国标尺寸是多少)
因“多散乱”问题 众信易诚保险代理一分支机构被监管“劝退”
预计2026年国内智能座舱规模将达2,127亿元_天天快播
金条逾期影响其他平台嘛?影响信用卡吗? 天天观速讯
茂名市永金奖教奖学慈善公益协会_关于茂名市永金奖教奖学慈善公益协会的简介_世界微头条
吃什么水果对眼睛好_水果内容介绍-全球热议
适合小孩的保险产品榜单!这些产品保障好,价格便宜|世界热闻
每日讯息!“五一”假期六安市实现旅游总收入16.36亿元
2020年10月黄道吉日_什么是黄道吉日
群联潘健成:NAND原厂扩大减产规模的机率持续上升
男生买5斤西瓜少2斤 怒怼商贩坑学生是什么情况
【世界时快讯】娄星区举行文艺志愿演出活动
电脑桌面显示变小怎么还原_电脑桌面变小了怎么还原-当前报道
- 哈尔滨啤酒冰纯怎么样?哈尔滨啤酒冰纯多少度? 世界要闻
- 员工离职 苦心培育的工作微信号归谁?|每日快播
- 快手打击侵权盗版体育赛事直播转播等行为
- 美金融专家:收购难以解决美国银行业问题
- 帮大忙了!出事故严重受伤!聊城交警帮她申请到17万元救助金 世界即时
- 双主业并行,泰嘉股份发力高端锯切和新能源电源-全球时讯
- 当前快讯:尸位素餐 蝇营狗苟什么意思_尸位素餐蝇营狗苟什么意思
- fda认证是什么意思中国官方认可吗_fda认证是什么意思-天天快播报
- 当前看点!神的测验3-4季百度云_神的测验3
- 从广交会“成绩单”看中国经济发展的信心
- 萧山一妈妈每月存4000,要存够100万,只为26年后……
- 重磅对话!风云变幻,如何洞察市场本质?资深投资老将为您揭晓市场攻守之道……-全球聚看点
- 平安医疗保险有哪些优点?哪种最好?
- 【世界时快讯】科德教育:公司并不具备人工智能大模型相关技术
- 苍溪县气象台发布大风蓝色预警信号【IV级/一般】【2023-05-05】
- 中国工商银行湖南省分行举办第五届员工气排球比赛
- 天天热门:火影忍者鸣人九尾化头像_火影忍者图片鸣人九尾化
- 个人账户利息计算方法_利息计算方法_天天播报
- 日本6.3级地震致多处房屋坍塌 一人处于心肺停止状态
- 广西北海旅游市场人气火爆 远超2019年同期水平 动态
- 崩坏星穹铁道隐藏任务碰瓷的关刀攻略_世界今头条
- 内蒙古惠蒙保怎么报销 内蒙古惠蒙保报销流程如下_今日播报
- 世界热消息:5月5日广深铁路涨停分析:深圳本地股,铁总混改,混改概念热股
- 2.58亿!联合国这一人口数据去年骤增 每日速递
- 苑东生物(688513.SH):2022年与产业优秀合伙伙伴达成两个产品-世界热议
- 岚山区金融科普进校园 每日快播
- 【世界报资讯】天之道地图坐标_天之道坐标
- 可以进城的“货车”,五菱打造出来了!横、竖都能装,带你看龙卡
- 上海幼升小本明起报名,这些事项家长要知道|今日热闻
- 一般醒面要多长时间 一般醒面需要多久 观天下
- “2022十大重庆经济年度人物 ”参评人|周宗成:三大核心板块创新成果卓越,跻身行业领先地位
- 湖南永州李家塘村:小园改建助推家园焕新|全球实时
- 环球快资讯:中国与老挝将举行“友谊盾牌-2023”联合演习
- 32℃+要热到啥时候?雷雨、大风、降温…尽在本周日!_天天热门
- 恒大归化球员费南多已经获得为国足出战的资格
- 焦点热门:孜然烤韭菜
- 环球快播:华声在线新闻网站12377平台工作汇报
- 鼓励用风电、光电替代化工生产用电!内蒙古工业领域碳达峰实施方案出炉!
- 前面板耳机接口无声音的解决办法有哪些_前面板耳机接口无声音的解决办法_焦点短讯
- 语文错题本怎么整理好英 全球速看料
- 激流之战_关于激流之战介绍
- 天天速看:苗兆光:未来2到3年里,企业生存发展的三大建议
- 重返阿根廷U20执教,马斯切拉诺:我这样做是因为斯卡洛尼
- 俄罗斯暂停与印度石油交易采用卢比结算的双边贸易谈判 全球今头条
- 你好,台州青年!-天天新动态
- 一汽大众宝来油箱多少升_大众宝来油箱多少升?
- 女男女这个字念什么_男女男是什么字 当前资讯
- 强降雨天气影响我国南方大部地区 公安部交管局提醒|环球快消息
- 张家口旅游景点大全_张家口旅游景点大全景点介绍|全球今日报
- 【世界聚看点】【世界说】美国梦变“懒惰”?美媒:太多美国人因医疗补助计划陷入贫困和依赖的恶性循环