随着人工智能在应用程序构建领域的蓬勃发展,公司面临着一个重要的数据标记问题,尤其是在标记图像或其他他们想要训练深度学习算法的媒体内容时。
今天,数据标记和基础设施提供商Scale AI推出了一项名为Scale Rapid的服务,旨在通过在一到三个小时内标记数据样本来解决这个问题。用户可以查看工作以确保正确完成标记,必要时迭代他们的标记说明,然后逐步让 Scale AI 标记其数据集的其余部分。
这是 Scale AI 在去年推出的一系列产品中的最新一款,旨在保持其在标签领域的领先地位。4 月份,该公司筹集了 3.25 亿美元,使其总筹资额超过 6.02 亿美元。Scale AI 表示,它的年度经常性收入已超过 1 亿美元,并且有望实现同比翻番。其 73 亿美元的估值超过了大多数竞争对手的已知公开价值,其中包括 Labelbox、Hive、Snorkel AI、Mighty AI、Appen、Tasq.AI、Cloud Factory、Samsource 和 SupperAnnotate。
数据标记过程工作负载
一些公司吹嘘可以接触到大量准备标记数据的承包商,但 Scale AI 首席技术官 Brad Porter 表示,他认为没有人承诺与 Scale Rapid 提供的质量保证和速度相同。
波特说,构建人工智能应用程序的公司通常会做两件事之一。他们要么使用已经标记但往往是陈旧数据且新应用程序不易适应的现有数据集,要么他们选择 Mechanical Turk、Appen 或其他雇用个人为公司标记数据的第三方标记服务.
Scale AI 的竞争对手可能会提供标记工作流工具,但可能需要数周时间才能建立一个内部流程,以确保标记准确完成,并以一种使 AI 模型正常工作的方式完成。通常,从事该领域工作的公司必须自己负责确保数据标记质量。然而,Scale Rapid 旨在通过从头到尾完全管理标签过程来确保高质量的结果,Porter 说。
Scale Rapid 如何运作?
当机器学习 (ML) 研究人员或开发人员开始对数据集进行标记过程时,他们会编写有关如何标记数据的说明。这些说明可以用于各种任务,例如标记图像中的内容、注释音频剪辑或确定内容评论是正面还是负面。然后,开发人员上传 10 到 50 个数据示例,以确保贴标机正确遵循说明。
Scale AI 表示,它可以在一到三个小时内获得这些结果,并允许开发人员确保满足质量阈值。如果没有,开发人员可以再提交 10-50 个样品。一旦开发人员确认正确遵循了说明,他们就可以上传 500-1000 张图像并从那里进行缩放。
据波特称,Scale AI 拥有超过 100,000 名贴标员的劳动力来源。该公司确定一项任务是否需要专家标签,并有助于避免在一些流行的标签过程中发现的缺陷,如共识投票。在共识投票中,一个标注任务可能会发送给五个人,以多数结果作为有效标签。问题是大多数人可能是错的。例如,如果任务要求某人区分乌鸦和鹩哥,五分之四的贴标员可能会将鹩哥误认为更常见的乌鸦。因此,Scale AI 引入了所谓的“专家观察员”。然后它尝试使用机器学习自动化标记过程。
Scale AI 报告迅速采用 Scale Rapid
Scale AI 报告称,在该工具的早期访问私人测试版期间,Scale Rapid 得到了广泛采用,已经为包括 SpaceX、康奈尔、爱普生、Adobe、Square 和 TimberEye 在内的客户完成了超过 750,000 项任务。(Scale AI 最近发表了来自 TimberEye 的案例研究。)
Porter 说,Scale AI 的优势在于它起源于自动驾驶汽车行业的数据标记。该公司 24 岁的创始人兼 CEO Alexandr Wang 从麻省理工学院退学,开始构建激光雷达标签工具,以满足极其严格的标签标准。随着 Scale AI 逐渐服务于其他行业,它利用其标签经验,为公司提供服务级别协议 (SLA) 以保证质量。
去年,该公司转向帮助公司满足 AI 开发生命周期各个阶段的数据需求——从数据注释到数据调试、模型改进和完全托管的服务。Scale AI 目前覆盖多个行业,服务数百家客户,包括 Brex、OpenAI、美国陆军、SAP、Etsy 和 PayPal。