Datafold是一家自动化工作流程并保持数据质量的初创公司,今天宣布已在由 NEA(New Enterprise Associates)领投的A 轮融资中筹集了 2000 万美元。该投资也有 Amplify Partners 的参与,公司将利用这笔投资进一步开发其数据可靠性平台并扩大其团队。
对于任何数据驱动的组织,确保日常数据管道的质量是拥有功能良好的仪表板、经过适当训练的 AI 和 ML 模型以及准确分析的关键。然而,随着数据种类和数量的激增以及对更快交付数据产品的要求不断提高,使用手动测试、监控和质量保证方法的数据工程师经常发现自己陷入困境。他们跟不上复杂性。
确保高质量数据管道的解决方案
Datafold 成立于 2020 年,致力于通过其端到端可靠性平台解决这些挑战并防止数据灾难。该解决方案在开发数据产品的过程中自动化了多个繁琐的工作流程,从查找高质量数据到测试更改/修复,然后再将它们部署到生产中并监控已经在生产中的数据管道。
“Datafold 提供了几乎统一的数据目录,使数据开发人员能够从成千上万的数据集中找到相关的数据集并立即评估它们的工作方式,这意味着查看每一列中的数据分布、质量指标(给定列是否已填充或大部分无效)和数据集的血统,”Datafold 的创始人兼首席执行官 Gleb Mezhanskiy 告诉 Venturebeat。
Bigeye 和 Monte Carlo 等公司也在确保数据可靠性领域开展业务,尽管 Mezhanskiy 表示,这些和其他大型组织内部设置的大多数解决方案都专注于在数据管道投入生产时检测问题。结果,当团队了解损坏的数据时,损害已经造成,高管们根据错误的仪表板数字或经过偏见训练的 ML 模型做出决策。
另一方面,Datafold 专注于在数据异常投入生产并造成破坏之前主动识别数据异常。该解决方案的旗舰功能 Data Diff 使变更管理工作流中的数据测试自动化,并将其集成到 CI/CD 流程和代码存储库中。这向数据从业者展示了数据处理代码中的更改将如何影响生成的数据和下游产品(例如 BI 仪表板),从而使他们能够在代码进入生产和计算数据之前捕获可能源于修补程序/更改的问题。
“在使用 Datafold 之前,我们的客户团队会在同一任务上花费多个小时。但是,使用我们的工具,他们需要大约五分钟。所以这是一个巨大的、大规模的测试加速,”Mezhanskiy 强调说,同时指出该公司与“几十个客户”合作并帮助他们确保 100% 的代码测试。
除此之外,与其竞争对手非常相似,该公司还利用机器学习来监控和检测已投入生产的旧数据产品和管道中的故障。
“我们基本上分析数据,计算指标,针对我们的机器学习模型运行它们,并回答数据是否按预期运行的问题。如果没有,我们会通过松弛或任何其他渠道提醒客户,”首席执行官说。
Datafold 吸引的一些知名客户包括 Patreon、Thumbtack、Faire、Dutchie、Amino、Truebill 和 Vital。
数据可靠性的前路
展望未来,Datafold 计划改进其产品,扩大其自动化数据工程师所做的更多检查和测试的能力。该公司认为,数据工程师所做的 80% 以上都可以实现自动化。
与此同时,它还计划推出智能警报功能,优先处理数据异常,帮助团队决定哪些问题是最关键的,需要首先解决。该功能目前正在与少数客户进行测试。
在短期内,Datafold 预计这些改进将实现五倍的增长。该公司还将在明年年底将其团队扩大到 40 人或更多。