Gretel.ai是一个生成合成和隐私保护数据的平台,今天宣布它在由 Anthos Capital 牵头、Section 32、Greylock 和 Moonshots Capital 参与的 B 系列中筹集了 5000 万美元。据首席执行官 Ali Golshan 称,这些资金使公司的总融资额达到 6550 万美元,将用于支持产品开发,特别关注扩展到新用例。
随着公司在大流行期间越来越多地接受数字化,用于开发和测试软件系统与现实世界数据的合成数据已经流行起来。在最近对高管的一项调查中,89% 的受访者表示合成数据对于保持竞争力至关重要。而根据Gartner的数据,2030年,合成数据将在AI模式掩盖了真实的数据。
Gretel 提供了一个平台,使开发人员能够与其他团队、部门和组织进行试验、协作和共享数据。客户可以使用工具和 API 的组合来合成、转换和分类数据,这些工具和 API 应用人工智能技术为生产数据生成合成替代品。
“Gretel 的工具使开发人员和数据从业者能够消除重大瓶颈并实现'设计隐私',”Golshan 通过电子邮件告诉 VentureBeat。“[有了它,客户可以] 合成数据以提升用于训练机器学习和 AI 模型的代表性不足的数据集,合成数据以训练机器学习和 AI 模型,其中生成的合成数据不包含敏感或个人身份信息数据,[和]将数据转换为支持预生产环境并使用匿名数据进行测试。”
Gretel 总部位于圣地亚哥,由 Golshan、Alexander Watson、John Myers 和 Laszlo Bock 于 2020 年创立。博克是谷歌的前高级副总裁,而沃森领导安全初创公司 Harvest.ai,直到 2017 年它被亚马逊以约 2000 万美元的价格收购。
隐私保护数据
根据 Golshan 的说法,大流行加速了更严格的数据隐私监管和合规性的趋势——随后,对隐私工具的需求也随之而来,以减轻与用户隐私相关的这些风险和其他风险。
Privitar 的一项调查显示,51% 的受访消费者不愿意分享他们的个人信息。在 Veritas 的一份报告中,53% 的受访者表示他们会在值得信赖的组织上花更多的钱,22% 的人表示他们会在认真对待数据保护的企业上多花 25%。
当前的商业环境也促使公司加快步伐以保持竞争力,这也带来了风险。安全专家普遍认为,技术采用的速度是导致当前网络犯罪环境的主要因素。而毕马威发表的研究表明,大量的组织在流行病加大了对AI的投资到如此地步,管理层正在关注移动得太快。
同时密切合成数据镜像真实世界的数据,数学或统计学处理,陪审团出它的功效。一纸由研究员在卡内基梅隆出版概述了模拟的挑战阻碍现实世界的发展,包括重复性问题和所谓的“现实的差距”,其中模拟环境不充分代表现实。
然而,其他研究表明,与基于实际事件或人物的数据相比,合成数据对于训练模型的效果同样好。例如,英伟达的研究人员展示了一种使用在虚拟环境中创建的数据来训练机器人在现实世界中捡起诸如汤罐头、芥末瓶和一盒 Cheez-Its 之类的物体的方法。
“在隐私领域,有传统公司更关注合规性和法规,也有初创公司专注于利基应用程序的合成数据,但 Gretel 采取了更具可扩展性的方法,通过提供前瞻性合成数据和隐私工具可用于开发人员作为 API,”Golshan 说。“合成数据是我们提供的隐私工具套件中的一个工具,其中包括使用高级 AI 功能的分类和转换。”
不断增长的工具集
Gretel 声称其平台与技术和垂直领域无关,与一系列框架、应用程序和编程语言兼容。它涵盖了诸如通过上述 API 进行数据标记等任务,以及用于帮助评估 Gretel 合成数据质量的高级分数和指标的报告生成。
与 Tonic、Delphix、Mostly AI 和 Hazy 等竞争对手相比,Gretel 表示,它正在与生命科学、金融、游戏和技术品牌合作开发“变革性”应用程序,例如创建可在医疗保健组织之间共享的合成医疗记录。Gretel 处于其发布的测试阶段,目前不向用户或客户收费,但 Golshan 表示,它已经与几个潜在客户达成了概念验证,并预计这些公司将在该平台明年初全面上市后转变为付费客户。
“我们有将近 75,000 次下载我们的开源发行版——Gretel 的合成器的‘开放核心’版本,”Golshan 说。“我们有 20 名全职员工,并且正在迅速扩张……到 2022 年底,我们预计将再招聘 50 到 75 名员工,其中包括更多的工程师和研究人员、营销人员、产品经理、开发人员倡导者和销售人员。”