有多少人工,就有多少智能

人工智能行业有句老话:有多少人工,就有多少智能。

经常有人问我,这个问题能否用AI解决,那个问题能否用AI解决。

我的回答是,首先看你有多少数据,以及有多少人搞数据。

数据的重要性不言而喻,在我之前的文章有谈及。

而很多人忽略的一个事实是,搞数据的人力储备,同样不可或缺。

我们知道计算机视觉的模型训练,依赖大量的样本图片。首先要有足够的原始图片,有了图片后还要对数据进行组织和标注,这两项都是耗时巨大的工作。

先说说数据组织

一般缺乏数据的中小型公司,会采取众包、爬虫等方式获取外部数据。

而对平台型公司,自己的业务就能产生海量数据,这种是机器学习最佳实践。

但是,不意味着有数据来源,工作就轻松了。

对数据的组织、整理、分类,又是一项费时费力的工作。

再次以机器审核为例,通过模型训练,自动识别图片是否违规(比如色情、涉政)。

我们自己的业务,每天大概产生一亿张图片,这些图片都进入机器学习模型,用来做秩序审核。

模型审核的结果,包括两种可能:违规、不违规。

但是,这只是机审的结果,它可能正确或不正确,因此需要人工二审介入。

人工二审的工作点:

  • 在违规图片里,审核出哪些是真的违规(TP)、哪些是误判的(FP)
  • 在不违规图片里,审核出哪些是真的不违规(TN)、哪些是漏判的(FN)

工作流程如下:

上述TP、FP、TN、FN四个成分,是我们最终需要的数据,用来产生模型训练的样本,构建合适的数据分层。

我们看到,人工二审在这个体系里至关重要,它负责结果的最终正确性。

线上每天产生一亿张原始图片,假设机审的结果,识别为正的图片为10万张,那么人工二审就要在10万张里,挑选出TP和FP。

识别为负的图片有9千多万张,自然不可能全部人审,那么就抽样。哪怕是按5%抽样,也有将近500万张图片,需要在其中挑选出TN和FN。

这是一项工作量十分巨大的工作,我们有几十号人兼着来做这个事。

再说说标注

同样是一项耗时费力的工作,还要依赖于先进的工具,比如好用的标注系统。

前面文章说过,标注规则依赖于业务的不同而不同,有的简单,大多数很复杂。

我自己试过标一项人体关键点数据,半天才标了50张,头昏脑涨的。

而线上系统每天产生数万张图片要标注,这个工作量可想而知。

标完还要审,因为每个人对标注规则的理解不一致,不太可能一次性标完就通过。

不过,标注有一些可以省力的地方,包括:

  • 标的时候,用模型预标注,再由人工去核对,就快得多
  • 审的时候,可以采用多标方式,标完由模型过一遍,如果多个人标的结果一致,则自动通过;如果结果差异大,则打回重标

没有轻松的数据工作

样本的数量,标注的质量,对模型的结果至关重要。而不管样本还是标注,都意味着非常巨大的工作量。在进行机器学习业务之前,先想清楚自己是否有足够的数据,以及是否有足够的人来处理数据。