Tonic.ai是一家用可用于质量保证和测试的虚假数据模拟生产数据的公司,今天宣布它在由 Insight Partners 领投、GGV Capital、Bloomberg Beta 和 William Smith 参与的 B 轮融资中筹集了 3500 万美元。 Octave、Heavybit 和硅谷 CISO 投资。首席执行官 Ian Coe 表示,这些资金将用于改善开发者关系并支持未来的平台开发,重点是实施机器学习和人工智能来合成测试数据集。
合成数据市场正在快速增长。根据一项分析,在该领域最大的 58 家初创公司中,45% 是在过去两年中创建的。2020 年,风险投资公司向这些初创公司注入了至少 7800 万美元,比 2019 年增长了 78%,使该细分市场的价值超过 2.1 亿美元。
Tonic 成立于 2018 年,在旧金山和亚特兰大设有办事处,为数据库去标识化、合成、子集化等提供企业工具。Coe 说,该平台允许开发人员创建其数据的合成版本,用于开发和测试,同时采取措施保护客户隐私。
“Andrew Colombi、Adam Kamor、Karl Hanson 和我是几位业务开发工程师,他们坐在一栋空楼里,试图调试一些失败的代码,”Coe 通过电子邮件告诉 VentureBeat。“我们在 Palo Alto 有一个庞大而优秀的开发团队,他们渴望帮助我们,但他们无法将导致所有问题的数据发送给开发人员。这些数据是机密的客户数据,其中包含无数个人身份信息。[那时我们] 想出了建立一个平台来帮助解决这些问题的想法。”
假数据
合成数据是作为现实世界数据的替代品生成的带注释的信息。合成数据在数学或统计上与现实世界的数据密切相关。虽然陪审团对其准确性不满意,但一些研究表明,与基于实际物体、事件或人的数据相比,它可以很好地训练模型。
Tonic 的平台利用 AI 来保留某些数据中的比率、关系和依赖性。它在数据转换期间应用差分隐私以消除异常值的影响并提供隐私的数学保证。此外,Tonic 允许跨表或数据库链接和分区列,以反映数据的复杂性并确保输入映射到相同的输出。它标记敏感信息以提醒用户注意多达数万个数据库行和数百个表的变化。
“在将机器学习应用于数据合成过程的自动化时,我们确实使用了 GAN(生成对抗网络),”Coe 说。“开发人员需要测试数据来在预生产环境中测试软件。在世界上最大的软件开发中,数据集和模式极其庞大和复杂。这意味着构建脚本或手动创建测试数据集几乎是不可能的。根据 HIPAA、PCI 和 GDPR 等法律,使用生产数据是非法的。”
Tonic 在新兴的合成数据生成市场与 Delphix、Gretel.ai、Mostly AI 和 Hazy 展开竞争,该公司表示,在过去一年中,其团队规模翻了两番,达到 40 人,同时收入增长了 600% 以上。该公司目前的客户包括 eBay、The Motley Fool、Flexport、Dreambox 和 Everlywell,以及医疗保健、金融服务、教育、物流和电子商务行业的其他客户。
“我们希望推动现代 CI/CD 管道中合成数据的大规模采用,”Coe 继续说道。“Tonic 提供了模拟生产数据的能力,同时为开发人员、分析师和 DevOps 团队维护数据的实用性和行为。”
Gartner在2021年6 月的一份关于合成数据的报告中预测,到 2030 年,人工智能中使用的大部分数据将通过规则、统计模型、模拟或其他技术人工生成。如果当前的趋势保持不变并且像 Tonic 这样的公司有自己的方式,那么情况很可能就是这样。