人工智能时代,数据标注已经成为一个新兴产业,其上下游相关业务涉及机器学习、虹膜识别、人脸识别、无人驾驶等技术。然而数据标注真正的核心是大量人力投入的标框工作。
目前关于数据标注行业的研究还较为缺乏,更多的是媒体调查报告对该行业的描述。比如,诸多媒体都将该产业定义为劳动密集型,也通常将它与富士康进行类比,称其为“人工智能领域的富士康”。
作为长期观察中国互联网产业发展的一员,我对这个“人工智能领域的富士康”中的从业者群体产生了极大的兴趣:他们究竟是谁?他们真的是人工智能时代的流水线工人吗?
在对贵州的“未来”数据标注公司进行为期一周的前期田野调查过程中,我发现,未来公司的从业群体画像与已有媒体报道有所不同:未来公司的高级管理层以未来职业学院的老师为主;中级管理层以该校毕业的学生为主,其中少部分是来自贵州其他院校的本科毕业生;公司里的标注员基本上是来自贵州二十几个院校“产教融合”的实习生以及部分社招人员,其中以未来学院“产教融合”的实习生为主。
标注员一般分为四类:全职的中层管理者,顶岗的实习生,跟岗的实习生和半工半读的学生。顶岗实习生大多是因应教育部的产教融合模式而产生的为期一年的大三实习生。跟岗的多为仅三个月实习的大二学生。半工半读的实习生多为未来学院的少数民族贫困生。
据未来公司的一个项目组长小刘介绍,一条数据标注一般由数据标注员、初审员、终审员三个人共同完成。系统会随机派发词条给数据标注员,标注员完成标框以后,会由对应的初审员审核,再交由终审员审核,最后提交系统。这三者的比例是5:1:1或6:1:1。
也就是说,一个终审员对应一个初审员和五到六个数据标注员。三者之间存在连带关系:初审员和终审员的薪资按照他们手下标注员平均工资来计算;如果其中一个词条连续三次出现错误的话,系统会自动回收词条,负责的组长也会找小团队谈话。
数据标注实习生的身份认同:90后?少数民族?
在去往贵州的路上,我不可避免地充满了许多关于少数民族的想象,甚至一度将它作为田野观察中的一个重要标签。有趣的是,尽管未来公司过半的实习生是少数民族学生,在为期一周的前期观察中,我居然有一种未能抽离日常教学工作的观感:似乎我面对的仍是上海的大学课堂上的那班95后学生。不管是对于工作的认知与自我定位,还是对于未来的想象,这些少数民族的95后学生自始至终将“90后”的身份认同优先于民族身份认同。
未来公司的另一个项目组长小回告诉我,“现在80后是社会顶梁柱,90后赚钱资历不够,有点心高气傲的,就业和择业选择性比较强,所以比较尴尬……其实我们现在90后除了钱还是钱……情怀是什么东西就不知道了。你看以现在的物价,结婚就是二三十万,我要工作多久才能赚到20万?……不管你是哪个民族,目前我们最重要的目标就是赚钱。”
“为自己干”是我在访谈过程中听过最多的未来公司的文化。比如公司的标注员小布就不断强调公司并不要求实习生加班,大家都是“自愿”加班:有些女孩子为了拿到一个月一万多的计件工资,甚至会选择每周工作七天,每天工作11个小时。
批判学研究往往会将这类叙事方式看作典型的“自我剥削”(self-exploitation)的一种外在形式——公司或管理者通过授予文化工作者一定程度的创作自由和空间,诸如掌握自己的工作时间、地点和形式等,并对员工进行“自我管理”的培训,用以控制他们。公司和管理者往往通过这种方式将风险和责任下放到个人身上。
此类方式见诸于社会各个领域,上至美国社会典型的“个人成功论”,下至互联网公司的灵活上班制度,同样地,也得到了这些90后少数民族青年的认同——类似于“谈话”和“为自己干”的心理疏导与情感交流成为了管理这些学生的主要方式。
和我在上海高校面对的95后大学生一致,这些90后的少数民族青年也对创业充满了热情。虽然创业的内容与上海的群体有些许不同,比如因应贵州当地特色,更多青年的创业梦想集中于农村淘宝、电子商务层面,希望通过将当地农产品互联网化来实现助农脱贫。
但是,这些青年对于通过创业实现自由的渴望与大城市中的90后创业青年们并无不同。与上述“为自己干”这类虚幻的“自我控制”类似,这种对通过创业来掌控自我命运的自由的追寻使得这些青年更为巩固了90后的身份认同。
关于民族身份认同,小布表示,他们这一代的少数民族往往已经不会说本族语言,对本族的文化仪式也没有太多参与感。对于这些青年来说,区分他们的已不是民族身份,而是教育程度。
“如果没有受过比较好一点的教育的话,他可能会比较死板……接触新东西都感觉有点恐惧……你受过这些教育的话,和他(没有受过高等教育的同民族小伙伴)就交流不了多少。交流的话,他就讲那几样……你在公司里面发现,小伙伴之间还是有很多可以交流的。”
当身为布依族的小布用坚定的眼神告诉我“教育真的能改变人生”的时候,我决定临时改变行程,在之后的几天走访少数民族村寨去实地了解这些青年所处的文化氛围。正是因为受教育程度的分化,使得这些90后少数民族青年,相较于他们的长辈来说,更欢迎这些和人工智能相关的企业入驻当地,也更愿意通过这份工作标签他们的 “90后青年”这一身份。
“我在为人工智能添砖加瓦”
大部分现有媒体报道将数据标注工作类比于富士康工作的一大原因是认为前者的劳动过程出现了异化(alienation):劳动者即数据标注员失去对工作的控制,对工作内容和成果毫无参与感。
与之相反,我所接触到的青年们对这份工作的认知是“人工智能工程的一个基础建设性工作”,对自我身份的认知是“智能人工”、“人工智能背后的训练师”。而“无人工不智能”也是这群青年常挂在嘴边的一句话。尽管很多青年从事这份工作的动力之一是在当地相对优渥的报酬,但是对于自己能加入到人工智能的大潮,为未来人工智能的实现做出一份贡献的自豪感也是他们继续这份工作的动力。
小刘告诉我,“比如说我们做百度的工作之后,看到百度无人车在路上行驶的时候,确实会有一些自豪感。因为这个东西有我参与的一部分,能影响人类社会。”其他受访者也表示了类似的想法。
这种参与到人工智能发展过程中的自豪感或多或少也让这些青年将自己有意识的区分于富士康的同龄人。在他们看来,富士康更像是传统高职院校学生们会加入的、和电子厂类似的工厂。也许这种区分感在日复一日的标框工作中显得并不那么明显,但是真正有所区分的,或许是这些青年言谈间流露出来的对于人工智能发展的高度期许以及对自身价值的肯定。
小回说,“机器越发达,就会让劳动力流失越严重……比如我们现在研究无人车,以后无人车研究成功了,就很少用人工了,但是其他项目就会发出来……需要我们的学弟学妹去处理这些数据……我觉得机器不能完全取代人。”
未来公司的一个中层管理者小天也表示,“之前我特别迷茫,觉得每天做劳动性、重复性的工作和流水线有什么区别……了解接触多了之后就会发现其实AI它能够实现数据初步的信息识别,能够完成60%、70%,但还不够精准,需要人工去校对和标注。未来,当它达到一定的高度之后,我们简单重复性的工作肯定会被替代,同时又会产生很多新的工作岗位。”
和已有的媒体报道有所区别的是,这些从事数据标注第一线工作的青年们对于未来并不茫然,大多数人都坚信人工智能发展的未来会衍生出其他新的工种,而他们还是会有一席之地。正如小布所说,数据标注不过是一份自己正在从事的工作,“机器换人”的未来与自己换工作并不构成直接的因果关系。
留守的童年,智能的未来?
事实上,在小刘提及他作为留守儿童的经历对他择业的影响之前,我的研究计划中并不涉及贵州的留守儿童这一特殊现象。当小刘提及数据标注这类与人工智能挂钩的工作也许可以在未来改变贵州青壮年劳力常年外出打工的现状,以此减少未来留守儿童的人数时,我决定临时更改研究计划,前往当地几个少数民族村寨。
我惊讶地发现这些村寨的青壮年劳力几乎处于缺席的状况:三三两两的孩童在街头、水库边、山路上玩耍,并没有任何大人监管;十几岁初中生年纪的苗族、布依族少年少女们大多骑着摩托车或是电瓶车载着更小的孩子在村道上快速飞驰。
村寨小卖部门口的布依族老奶奶和孩子。
在去往一个村寨的半山腰上,我遇到了放假留守的三个苗族小学生,健谈的小学生告诉我,他们的苗寨目前大概还有十几户人家,很多孩子都被送到镇上的亲戚家,村寨现在只剩下五个小孩。平时他们寄宿在近两百公里以外的学校里,现在放假才被接回村中给家里放羊。
在又路遇了放假在家修房子的苗族初中少年们以后,我才得知,一直以来在媒体报道中看到的“小候鸟”(暑假被接去父母打工所在地和父母团聚的留守儿童们)在贵州的这些山区中并不普遍。一个原因是在外地打工的父母经济上无法负担接送孩子来回并且临时照顾孩子可能产生的误工费等等。另一个原因则是,这些孩子们在假期往往需要留在家中帮年迈的爷爷奶奶们做家务,比如割猪草、放羊、喂猪等等。
正如小回所说,即便这些父母知道留守儿童存在很多问题,会对孩子的未来造成影响,但是他们也没有选择:如果留在当地,有限的收入很可能让他们无法维持生计,甚至因为当地普遍的外出打工现状,留家务农还会导致邻里取笑父母没有上进心这类舆论压力。
从教于贵州当地最大的公立职业院校之一的洪老师反映,目前国家对当地的扶贫项目在基础建设方面已经颇有成效,比如我一路上所见的修建完善的盘山公路和房屋整洁的村寨。
当地目前真正面临的问题是,如何引科技企业入驻,培养相应的人才,进而实现让当地人在当地就业。小回、小布和小天都提及,贵州在政策上成为大数据产业发展的热土以后,类似数据标注这种和大数据、人工智能密切挂钩的工作成为他们对于未来的期许:也许他们这一代能因为新产业的进驻与发展而留在故乡,也许他们的下一代不会成为留守儿童。
未来也许可期?
不可否认,产教融合的模式在数据标注这个行业中还有很长的路要走,实施过程也需要更多第三方的监督。这些也将成为我们接下来的研究重点。然而,与简单粗暴的将这些青年等同于富士康工人或是高科技时代的流水线工人不同的是,我们更应该看到他们的内部动态结构:他们对这份工作的认同感;他们从事这份工作背后的社会动态因素;他们对人工智能的认知与预期。他们清醒地意识到自己在从事一份什么样的工作,也明白未来可期的是什么。
作为长期从事批判研究的一员,此次前期田野调查也帮我突破了长久以来的研究瓶颈:批判研究并不是单纯的找问题、挖掘问题,也许我们也需要反思,关于我们能做些什么来解决这些问题。
数据标注行业、人工智能、扶贫、留守儿童等等,亟待我们解决的,更多的也许是政策落地实施过程中出现的问题,以及如何切实地解决这些落地问题。
(文中的公司、学院与人物均为化名。作者夏冰青系华东师范大学传播学院晨晖学者。作者特别感谢为此次田野调查提供任何帮助的所有人。)
来源:澎湃新闻 原文链接:城市与社会 | 人工智能数据标注,标注的是谁的未来?