返回首页
最新
我为我的女朋友构建了一套轻量级的财务决策工具(买房与租房、房屋投资、退休规划、债务偿还),这是在我尝试为她模拟购买公寓的过程中完成的。
背景故事:我的女朋友正在考虑购买一套公寓,而我试图向她解释这些费用是如何累积的,甚至与租房相比。我从个人经验中了解到,在大学毕业后我在西雅图进行房屋投资时,简单的“租房就是在浪费钱”的理念可能会让人匆忙购买房产,而没有真正理解财务影响。我在口头上向她传达这一点时遇到了困难,于是我使用Codex为她构建了一个“房屋投资计算器”,以可视化的方式展示投资首付款和租房与购买公寓的比较。
当我为她完成了这个初步原型后,我意识到我构建了一些更具普遍实用性的东西。许多现有的在线财务工具要么过于复杂(需要建模税率、分类债券/投资分配等),要么过于简单(只需输入你的抵押贷款利率和余额,而不考虑出售后可以再投资的收益),或者需要你在获得所需答案之前输入一堆联系信息。
因此,市场上需要一个免费的、响应迅速的、轻量级的工具,可以立即向你展示像首付款、利率和通货膨胀率等变量的变化如何影响你的财务状况,而不需要你提供联系信息。在我考虑这些设计理念构建了房屋投资计算器后,我很高兴能够扩展到其他工具,如退休规划、预算分配、债务偿还、租房与买房等。当我了解到我可以以每年仅10美元的费用在Cloudflare上托管自己的静态网页时,这让我感到非常有成就感。
希望大家能觉得这些工具有用,我也非常欢迎对任何错误假设、缺失输入以及我应该添加的其他工具的反馈。
这是我无法找到答案的问题,也暂时无法自己解答的内容:
在Claude Code中,我使用Opus 4.6 1M,但通过仔细管理会话保持在250k以下,以避免已知的NoLiMa [0] / 上下文衰退 [1] 问题。然而,我一直想要得到的答案是:在使用约165k个token的情况下,Opus 1M的质量是否真的比Opus 200k更高?(我使用约165k是为了考虑token缓冲和其他因素,但理论上,这个数字也可能是约195k,关键是——在Opus 200k部署的极限情况下)
NoLiMa表明,在约165k的请求下,Opus 200k的表现会很差,而Opus 1M会更好(因为使用的上下文窗口的比例较低)……但它们是同一个模型。然而,实际上推理部署的差异可能会改变整个范式,对吗?我感到非常困惑。
Anthropic表示它们是同一个模型 [2]。但是,Claude Code自己的源代码将它们视为具有不同路由的独立变体 [3]。我找到的最接近的测试 [4] 断言它们在200K以下是相同的,但实际上并没有进行A/B测试,对吗?
在Claude Code内部,可能无法进行测试,对吧?根据这个问题 [5],CLI对于相同输入是非确定性的,代理会话在工具使用上会分支。需要一个干净的API级别测试。
*我真正想知道的是关于我自己应用中基于Claude的功能的API级别测试。是否有一个真实的基准?*
我在这个问题上已经达到了理解的极限。如果我所说的有任何道理,任何帮助都将不胜感激。
如果有人能帮我更好地提出这个问题,我也会非常感激。
[0] https://arxiv.org/abs/2502.05167
[1] https://research.trychroma.com/context-rot
[2] https://claude.com/blog/1m-context-ga
[3] https://github.com/anthropics/claude-code/issues/35545
[4] https://www.claudecodecamp.com/p/claude-code-1m-context-window
[5] https://github.com/anthropics/claude-code/issues/3370
管理层正在推动我们在内部运行开放权重模型,原因是关于数据隐私的一些合规讨论。在我们做出决定之前,我们希望听听那些已经完成这一转型的人的意见。
我们特别想了解以下几个方面:
1. 与您请求的访问量相比,这样做的成本是否真的比支付API访问费更低?
2. 在管理性能方面,特别是延迟、吞吐量和硬件利用率方面,是否遇到过任何问题?
3. 您是如何处理跨团队/工作负载的成本可见性和归属的?
另外,我们对其他方面也很感兴趣,想知道什么是有效的,什么是无效的,以及在转型之前您希望自己知道的事情。
提前感谢您的帮助!
附言:我们并不是在寻求绝对的真理,只是希望在转型发生时做好准备。
我每天都在一起运行Claude Code和Codex。某个时候,我发现可以使用tmux让它们相互交流,于是我开始这样做。一旦它们能够协调工作,我就不断添加更多的代理。没过多久,我就有了一个完整的团队在一起协作。但每次我重启机器时,整个设置就消失了。不仅仅是标签页。它们的连接方式、每个代理的工作内容,所有的一切都没了。我没有找到任何工具可以将你的代理设置视为一种拓扑结构,作为一种可以保存并恢复的形态。
于是我构建了OpenRig,一个多代理的框架。框架包裹了一个模型,而“rig”则包裹你的框架。你可以在一个YAML文件中描述你的团队,通过一个命令启动它,并获得一个可以查看、点击、保存并按名称恢复的实时拓扑。Claude Code和Codex在同一个rig中运行,tmux仍然在底层进行通信。我没有尝试在其上添加更复杂的消息层。
这个项目仍处于早期阶段。我的设置广泛使用配置层(YAML、Markdown、JSON)来原型化超出仓库和npm包中提供的功能。但核心原语已经存在,README中的主要路径也能正常工作。它是为了由你的代理驱动,而不是让你手动输入命令。
README: [https://github.com/mvschwarz/openrig](https://github.com/mvschwarz/openrig)
演示: [https://youtu.be/vndsXRBPGio](https://youtu.be/vndsXRBPGio)