返回首页

24小时热榜

298作者: adocomplete大约 22 小时前原帖
<a href="https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-5" rel="nofollow">https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-5</a>
161作者: bilsbie大约 23 小时前原帖
<a href="https://xcancel.com/karpathy/status/1993010584175141038" rel="nofollow">https://xcancel.com/karpathy/status/1993010584175141038</a>
7作者: deaux大约 13 小时前原帖
五天前,我们的精细调优2.5 Flash模型的延迟突然增加了5倍。对于不太熟悉的人来说,这种精细调优的模型通常用于在特定任务上接近大型模型的性能,同时延迟和成本大大降低。这意味着它们通常用于实时生产场景,这些场景使用频繁,需要快速响应用户。否则,精细调优通常是不值得的。许多人在为一个这样的任务精细调优模型上花费几千美元(至少)。 五天前,谷歌向世界发布了Nano Banana Pro(Gemini 3.0图像预览)。自那时起,我们现有的精细调优模型的延迟突然增加了五倍。我们与其他也使用精细调优2.5 Flash模型的初创公司进行了交谈,他们也遇到了同样的情况,甚至在不同地区也是如此。显然,这对我们所有的产品都有很大影响。 从谷歌方面来看,除了沉默一无所获,甚至在付费支持方面也是如此。对初始支持请求的回复只是要求提供已经在该请求中提供的基本信息,或者是显而易见的内容。从那时起,已经超过48小时没有任何进展。 当然,这个时机可能纯属巧合——尽管我们以前从未见过这种延迟不稳定的情况——但我们都能看出最可能的原因;Nano Banana Pro和Gemini 3预览消耗了大量计算资源,而它们显然是以牺牲精细调优模型的输出为代价来实现这一点。在经历了这一切之后,想要将他们视为商业用途的合作伙伴几乎是不可能的,谁知道他们下次会做什么。尽管存在许多缺陷,OpenAI在稳定性方面一直是一个堡垒,尽管它是所有前沿模型提供商中最专注于B2C的。谷歌的Vertex声称专注于企业,却为了让消费者更快地获取Ghibli图像而破坏了其商业客户的产品。他们肯定收到了很多关于此问题的支持请求,考虑到谷歌的工程能力,他们一定有自动监控系统能够立即发现如此巨大的延迟增加。短暂的故障是可以理解的,发生在各处,最近AWS和Cloudflare也有类似情况,但5天以上的5倍延迟——即使他们修复了——实际上就是服务的5天以上的停机。 我发布这个主要是为了警告其他初创公司,今后不要依赖谷歌Vertex来满足用户面向的模型需求。
7作者: leo_e大约 24 小时前原帖
我们遇到了经典的分布式系统瓶颈,我在寻找一些经验教训或“最不糟糕”的实践。 背景:我们维护一个分布式有状态引擎(类似搜索/分析)。架构是标准的:控制平面(协调器)将数据段分配给工作节点。工作负载涉及对大数据集的重度使用 mmap 和延迟加载。 事件:我们发生了级联故障,协调器陷入循环,导致对特定节点的 DDOS 攻击。 信号:协调器发现节点 A 的行数(逻辑计数)显著低于集群平均水平,标记节点 A 为“未充分利用”。 行动:协调器尝试重新平衡/将新数据段加载到节点 A 上。 现实:节点 A 实际上使用了 197GB 的内存(接近 OOM)。其上的数据非常宽(宽行,大块数据),因此逻辑行数较低,但物理占用却非常大。 循环:节点 A 拒绝加载(或超时)。协调器忽略了背压,再次看到低行数,立即重试。 核心问题:我们试图为负载均衡器编写一个“上帝方程”。我们从行数开始,但失败了。我们查看了磁盘使用情况,但由于延迟加载,这与内存并没有直接关联。 现在我们在关注 mmap。由于操作系统管理页面缓存,应用层的 RSS 噪声很大,并不能严格反映“所需”内存与“可回收”缓存的关系。 问题:试图将每个资源变量(CPU、IOPS、RSS、磁盘、逻辑计数)枚举到一个单一的评分函数中,感觉像是一个 NP 难题的陷阱。 在内存使用不透明/动态的系统中,您如何处理资源分配? 愚蠢的协调器,聪明的节点:我们是否应该让协调器根据磁盘空间盲目操作,100% 依赖节点根据本地压力返回硬性 429 请求过多? 成本估算:我们是否尝试为每个数据段构建一个合成的“成本模型”(例如,预测的内存占用),并基于信用进行调度,而忽略实际的操作系统指标? 控制平面解耦:将存储平衡(磁盘)与查询平衡(内存)分开? 感觉我们在重新发明轮子。感谢提供相关论文或类似架构的事后分析。