返回首页

24小时热榜

6作者: behat大约 4 小时前原帖
大家好!我们是来自Relvy AI的Bharath和Simranjit(<a href="https://www.relvy.ai">https://www.relvy.ai</a>)。Relvy为软件工程团队自动化值班运行手册。它是一个配备了分析遥测数据和代码工具的AI代理,能够帮助团队在几分钟内调试和解决生产问题。这里有一个视频:[[[<a href="https://www.youtube.com/watch?v=BXr4_XlWXc0" rel="nofollow">https://www.youtube.com/watch?v=BXr4_XlWXc0</a>]]]<p>许多团队以某种形式使用AI来减轻值班负担。你可能正在将日志粘贴到Cursor中,或者使用Claude Code与Datadog的MCP服务器来帮助调试。我们观察到,自主根本原因分析对AI来说是一个困难的问题。这在基准测试中得到了体现——Claude Opus 4.6在OpenRCA数据集上的准确率仅为36%,而在编码任务中则表现更好。<p>造成这种情况的主要原因有三个:(1)遥测数据的体量可能会淹没模型,产生噪音;(2)数据解释/推理依赖于企业上下文;(3)值班是一个时间紧迫、高风险的问题,AI在调查时间内几乎没有探索的空间。导致用户走上错误路径的错误是很难被宽恕的。<p>在Relvy,我们通过构建专门的遥测数据分析工具来解决这些问题。我们的工具可以从密集的时间序列数据中检测异常和识别问题片段,进行日志模式搜索,并推理跨度树,所有这些都不会使代理上下文过载。<p>围绕运行手册锚定代理可以减少代理的探索性,更多地反映出经验丰富的工程师会采取的最有用的步骤。这导致分析速度更快,工程师在审查和理解AI所做的工作时的认知负担更轻。<p>工作原理:Relvy通过docker-compose(或通过helm charts,或在我们的云上注册)安装在本地机器上,连接你的技术栈(可观察性和代码),创建你的第一个运行手册,并让Relvy调查最近的警报。<p>每次调查都以笔记本的形式呈现在我们的网页用户界面中,配有数据可视化,帮助工程师验证并建立与AI的信任。从此,Relvy可以配置为自动响应来自Slack的警报。<p>Relvy自动化的一些示例运行手册步骤包括:- 检查某个仪表板,查看错误是否仅限于特定分片。- 检查APM页面是否有吞吐量激增,如果有,是来自几个IP吗?- 检查最近的提交,看看这个端点是否有任何变化。<p>你还可以配置Relvy可以运行的AWS CLI命令,以自动化缓解措施,并需要人工批准。<p>关于我们的简要介绍——我们在2024年秋季参加了YC。我们开始时尝试使用小型语言模型进行持续日志监控——那太慢了。随后我们深入投资于有效解决根本原因分析,我们今天的产品是与早期客户合作约一年工作的结果。<p>今天就来试试我们吧。我们很乐意听取反馈,或者了解你们公司是如何应对值班负担的。感谢任何评论或建议!