返回首页
最新
我正在试图了解团队是如何调试由多个服务和外部集成(例如 Stripe、Twilio、内部微服务、队列、Webhook 等)构成的系统中的生产问题的。
实际上,当出现故障时,工作流程通常是这样的:
- 警报触发(Datadog/Sentry/CloudWatch 等)
- 或者客户投诉
- 工程师随后开始检查多个系统中的日志、追踪和仪表板
- 最终手动重建跨服务发生的事情
我想了解的是:
- 你们今天是如何追踪单个失败的请求或交易跨多个服务的?
- 在实际操作中,你们最依赖哪些工具(而不是理论上的工具)?
- 通常在哪个环节出现问题——日志、追踪、监控,还是缺乏上下文?
- 从“出现问题”到“我们确切知道为什么会出错”通常需要多长时间?
- 这个过程中哪部分仍然主要依赖手动拼凑信息?
我想了解在实际操作中,尤其是在有大量外部集成和异步流程的系统中,真正的痛点是什么。
我一直是Wondercraft的HN Recap播客的长期听众。不过,最近我觉得这个节目的格式变得有些僵化:每一集都遵循相同的结构(现实世界的影响、技术分析等),有时会错过原始帖子或讨论的重点。考虑到当前模型的表现如此出色,我期待能有更好的总结和综合。
你最喜欢哪个播客来跟进Hacker News?也欢迎推荐一些关注有趣、非主流故事的每日科技新闻播客。
我甚至建立了一个离线播客播放列表工具来比较不同的选项,但我仍然没有找到任何一个能持续做得更好的播客。