创新引领发展,龙猫数据用新技术赋能AI赢取未来


互联网之“冷”与人工智能之“热”

根据《中国就业市场景气报告》显示,今年第三季度的招聘需求人数与去年同期相比下降了27%,出现了八年来的首次下降。

在互联网就业市场一片阴冷之中,人工智能却成为了最火的热词,从政府工作报告到行业峰会大会,再到技术应用落地,我们见证了人工智能引领变革、带来生机的一次次惊艳表现。人工智能专业应届生动辄50万的年薪刺激着无数人的神经,而在人工智能光鲜一面的背后,作为算法优化过程的重要一环——数据标注,目前全职从业者已达到10万,兼职人群的规模更是接近100万。

截至2018年6月,全球人工智能企业已达5000余家,中国占据五分之一之多。AI企业的核心要素除了算法便是精准标注过的数据,这也催生了中国大量标注公司、标注团队出现。据不完全统计,除去人工智能巨头本身拥有的数据标注团队,国内专业的数据标注公司超过50余家,大大小小的外包团队超过500家,AI的火热可见一斑。

精度、效率与门槛:图像标注业身上的“三座大山”

数据标注的精准性对算法优化结果起到了决定性作用,这就要求数据标注必须高质量完成。而产品研发的紧迫性、行业竞争的白热化决定了标注数据的产出必须极其关注效率,可能一次数据标注的拖延就将导致产品上市的滞后,造成竞争力下降,甚至直接危及初创企业的生死存亡。

在图像标注领域,拥有自主标注平台的数据服务公司本身就不多,而目前国内图像标注平台普遍采用的还是两种标注方式:打点连线和PS技术。打点连线就是沿着要标注的物体边沿打上足够多的点,然后通过连成线标注出对象轮廓。这一方式门槛低但极其繁琐,只适用于交通线等直线标注标注效果也不够理想。另一方式是通过PS等画面处理技术标注,准入门槛较高,只有深度掌握PS等绘图技术才能够进行,标注时间和人力成本高,且导出格式单一,达不到客户要求,成为制约图像标注时效和质量的一大瓶颈,也成为普通数据标注员的一大心病:明明有标注任务和需求,却因为难以掌握相关技能而失之交臂。

如何在降低标注成本的前提下提升标注精度和效率,不仅成为标注行业本身的一块心病,也成为整个AI产业发展的制约。可以说,谁能够突破制约,找到解决之道,谁就能在激烈的标注业竞争中站稳脚跟,实现长足发展。

临危受命:他们遇到标注以来最大挑战

普通标注:边缘处理较困难,精度低

作为数据采集和标注领域的领军企业,北京安捷智合科技有限公司(龙猫数据)在AI发展中积累了大量经验,服务过超过100家的AI大型公司,累计提供行业解决方案超500个,并自主建立起国内第一个数据+算力的AI综合服务平台,为AI发展做出了突出贡献。

然而任何企业的发展都不可能一帆风顺,特别是正在快速成长期的公司。就在前不久,龙猫数据遇到了开展数据标注业务以来最大的挑战。某客户为了产品能够赶在竞品之前上市,要求龙猫数据在一周内为他们提供超过5万张的精细标注图,内容涵盖汽车、道路、自然风景、人脸等多个项目,且标注精度要求极其高,标注图像的边缘必须达到PS标注级别。

如果只是小批量标注,或许还可以找到足够多懂得PS技术的人来完成任务。但面对如此大的需求量,面对如此紧迫的任务周期,就连龙猫经验丰富的项目经理也感受到了巨大的压力。“用PS肯定标不完的,人不够,时间也不够”,这是出于经验的判断。他们马上找了一批打点标注的人进行精细标注,想通过更多人参与解决问题。

标注结果刚传到客户手里就马上引来不满,“这样的标注怎能达到我们的要求?你们还想不想继续合作?”

化压力为动力,从创新处找答案

超像素分割标注:精准,高效,简单,

面对客户的高标准严要求,有些人打起了退堂鼓。“要不这项目我们不做了?我们有那么多项目,这个不做我们也没什么损失”。在产品、技术、运营的联合会议上,负责人明确告诉大家:“这项目我们必须做,哪怕花再大代价,我们也要让客户满意,这是龙猫一直坚持的信念!再说这个我们不做,国内恐怕也没有第二家能够按要求做出来”。

负责人的态度感染了每一个人。大家都在努力想办法,但按照目前的现实情况,想要实现承诺真是天方夜谭。产品团队在会后进行头脑风暴,集思广益寻找思路。但囿于国内标注现状,大家想的还是传统的解决方法,很难从根本上解决问题。

这时候,团队的一名“老队员”——他在公司成立半年后就来这儿工作了,说道“要不我们考虑下超像素分割?”

所谓超像素分割,指的是将数字图像细分为多个图像子区域(像素的集合)(也被称作超像素)的过程。超像素是由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域。这些小区域大多保留了进一步进行图像分割的有效信息,且一般不会破坏图像中物体的边界信息。

超像素分割的结果是图像上子区域的集合(这些子区域的全体覆盖了整个图像),或是从图像中提取的轮廓线的集合(例如边缘检测)。如果能把技术用在图像标注上,不仅标注精度将会大大提高,标注对象边缘将会更加精确清晰,标注时间也将大大压缩。最重要的是,完成这种精度的标注,完全不需要再借助PS等图像处理工具,将有更多标注员有机会参与进来,完成这项任务也就不再困难。

大家会心一笑,方案找到了意味着:可以加班了。所有人都意识到这两天将是特别难熬的两天,但黎明前最黑暗,这也是创造标注“历史”的时刻。为了赶工期,技术的同事通宵达旦,设计标注标签、像素区块画笔,设置画笔大小范围、提供接口……一步步有条不紊的进行着,两天两夜满满的工作后,终于在第三天,测试工程师在群里告诉大家:标注新功能上线,超像素分割,欢迎使用。

产品笑了,运营忙了,技术睡了。

寒冬里的一把火:上万标注员因此获益

采用了超像素分割标注方法之后,原来那么多弯折的曲线再也不用挨个打点连线,简单的涂涂画画就标注完了。对于标注员来说,最直观的提升是工作的趣味性,“秘密花园这个游戏你玩过没有,现在标注就像是玩这个游戏,把对象选出来涂上不同的颜色,比起枯燥的打点有意思多了,你们怎么不早上线这个功能呢?”标准员小颖笑着说道。

甲方觉得一周的时间也确实有些短,但没想到的是龙猫数据竟然提前一天“交了卷”,看着标注的图像,他们惊讶的说,“你们是怎么做到的?全景图标的这么细致,比我们要求的精度还要高,边缘处理的也更好,真没想到可以达到这种效果,我都能想到我们的AI工程师看到这些图开心的表情了!”

客户还表示,有了这样的产出质量和效率,他们就可以投入更多在产品研发和落地上,以后将要采集标注的数据也会更多,无论是对数据服务行业还是对整个AI产业,都将起到相当大的推动作用。

超像素分割不仅提升了标注的质量,实现了打点连线标注无法达到的精度,更是极大提升了标注效率,小颖介绍说,之前用打点实现的标注效果,现在用新技术标注,在一半不到的时间里,就可以实现比之前更好的效果。如果用PS等工具进行标注,需要的时间往往比打点还要高。

“之前看他们会使用图像处理软件进行标注的很羡慕,但太复杂,也学不来”,春亮说,“现在那些精细标注的高额任务我终于也能领了,并且完成的比他们还好还快,自己的收入有了明显的提升。”

据保守估计,超像素分割降低了图像标注工作门槛之后,将有数万人因此获益,成为“一切图像皆可标”的“万能标注员”。


上一篇 下一篇