1作者: Ifedayo_s20 天前原帖
我正在试图了解团队是如何调试由多个服务和外部集成(例如 Stripe、Twilio、内部微服务、队列、Webhook 等)构成的系统中的生产问题的。 实际上,当出现故障时,工作流程通常是这样的: - 警报触发(Datadog/Sentry/CloudWatch 等) - 或者客户投诉 - 工程师随后开始检查多个系统中的日志、追踪和仪表板 - 最终手动重建跨服务发生的事情 我想了解的是: - 你们今天是如何追踪单个失败的请求或交易跨多个服务的? - 在实际操作中,你们最依赖哪些工具(而不是理论上的工具)? - 通常在哪个环节出现问题——日志、追踪、监控,还是缺乏上下文? - 从“出现问题”到“我们确切知道为什么会出错”通常需要多长时间? - 这个过程中哪部分仍然主要依赖手动拼凑信息? 我想了解在实际操作中,尤其是在有大量外部集成和异步流程的系统中,真正的痛点是什么。
3作者: randomor20 天前原帖
我一直是Wondercraft的HN Recap播客的长期听众。不过,最近我觉得这个节目的格式变得有些僵化:每一集都遵循相同的结构(现实世界的影响、技术分析等),有时会错过原始帖子或讨论的重点。考虑到当前模型的表现如此出色,我期待能有更好的总结和综合。 你最喜欢哪个播客来跟进Hacker News?也欢迎推荐一些关注有趣、非主流故事的每日科技新闻播客。 我甚至建立了一个离线播客播放列表工具来比较不同的选项,但我仍然没有找到任何一个能持续做得更好的播客。