8作者: tang833016 天前原帖
大家好,我是Artie的联合创始人。我们开发了一款实时数据复制工具,可以捕捉源数据库中每一行的变化,并在60秒内将其流式传输到数据仓库中。 上次我在这里发帖时,用户需要预约电话才能访问Artie。而今天,这种情况不再存在。您现在可以直接连接源数据库和目标仓库,并立即开始流式传输。 在我的职业生涯中,我花了多年时间构建大规模数据管道,亲身体验了获取实时数据的困难。我相信一定有更好的方法将数据流入我们的数据仓库,这也促成了Artie的诞生。如今,随着人工智能代理的出现,减少数据延迟变得愈发重要,因为代理需要基于最新数据做出决策。 当我最初开始构建Artie时,我很快意识到,旨在保持变更数据捕获(CDC)顺利运行的组件往往是拼凑而成的,存在许多边缘案例。不幸的是,实际上这些组件并不是为了协同工作而设计的。我们最终不得不应对模式漂移、回填竞争条件、Kafka偏移量提交和TOAST列等问题。我很想知道其他人在内部构建时是否也遇到过这些相同的问题。 欢迎访问artie.com,期待您的反馈!