返回首页
最新
大家好,我们是Jie Shen、Charles、Andreas和Shaocheng。我们开发了Chamber(<a href="https://usechamber.io">https://usechamber.io</a>),这是一个管理GPU基础设施的AI代理。您可以在团队已经使用的任何地方与它对话,它会处理集群配置、故障诊断、工作负载管理等任务。演示视频:<a href="https://www.youtube.com/watch?v=xdqh2C_hif4" rel="nofollow">https://www.youtube.com/watch?v=xdqh2C_hif4</a>
我们四个人都曾在亚马逊从事GPU基础设施的工作。我们在这个问题上花费了多年的时间——监控GPU集群、调试大规模故障、构建相关工具。在离开后,我们与许多AI团队进行了交流,发现大家面临着相同的问题。平台工程师一半的时间都在处理基础设施的日常运维:构建仪表板、编写调度配置、整天回答“我的工作什么时候开始?”等问题。当训练任务失败时,研究人员需要花费数小时来查找原因,因为这意味着要在完全不同的工具中查找Kubernetes事件、节点日志和GPU指标。几乎每个人都在拼凑Prometheus、Grafana、Kubernetes调度策略和一堆自制脚本,他们花在维护这些工具上的时间和实际使用它们的时间几乎是一样的。
我们注意到,这些工作大多遵循一定的模式。首先对故障进行分类,关联一些信号,然后找出解决方案。如果您有一个平台,可以结构化地访问GPU环境的完整状态,您就可以让代理为您完成这些工作。
这就是我们所构建的。Chamber是一个控制平面,实时维护您的GPU集群模型:节点、工作负载、团队结构、集群健康。它支持的每个操作都被暴露为代理可以调用的工具。检查节点健康、读取集群拓扑、管理工作负载生命周期、调整资源配置、配置基础设施。这些都是经过验证和回滚的结构化操作,而不仅仅是原始的Shell命令。当我们向平台添加新功能时,它们也会自动成为代理可以执行的任务。
我们在安全性方面花了很多时间,因为我们见证了基础设施自动化出错时的后果。一个错误的调用可能会导致多天的训练任务中断,或者在集群中引发连锁反应。因此,代理具有渐进式自主权。常规任务由它自行处理:诊断失败的工作、使用更正的资源重新提交、隔离故障节点。但任何涉及其他团队工作负载或生产任务的操作都需要先获得人工批准。每个操作都会记录代理所看到的内容、其行动原因以及所做的更改。
底层平台实际上使得故障诊断得以实现。当代理调查故障时,它会查询GPU状态、工作负载历史、节点健康时间线和集群拓扑。这就是“您的工作因内存不足而失败”和“您的工作因批量大小超过该节点可用的VRAM而失败,这里是更正的配置。”之间的区别。不同的根本原因需要不同的解决方案。
让我们感到惊讶的是,即使我们来自亚马逊,见过大型GPU集群,许多团队仍然无法告诉您现在有多少GPU在使用。监控根本不存在。他们在最昂贵的硬件上“盲飞”。
我们已经与一些早期客户启动了合作,并正在为新团队提供服务。我们仍在完善定价,目前正在评估按管理GPU数量计费和分级计划等模型。我们计划在验证最适合客户的方案后发布透明的定价信息。与此同时,我们知道“联系我们”并不是理想的选择。
我们非常希望听到任何运行GPU集群的人的反馈。您设置中最繁琐的部分是什么?您希望代理实际执行哪些任务?有哪些是禁止的?期待您的反馈!
我厌倦了在决定是否为我的有限责任公司(LLC)选择S公司时进行粗略的计算,所以我在周末制作了一个计算器。
我找到的大多数工具要么忽略州/城市税,要么收费获取答案,或者需要创建账户才能看到有用的信息。TakeHome完全在您的浏览器中运行(无需注册,无分析,无服务器端存储),并且在您拖动滑块时实时更新每一个数字。
它模拟的内容包括:
- LLC自雇税与S公司W-2工资的FICA税
- QBI扣除(第199A条款)与SSTB逐步淘汰
- 根据SECURE 2.0规则的单人401(k)(传统/罗斯/分割,按年龄段的补缴限额)
- 自雇健康保险扣除
- S公司管理/合规成本比较
- 纽约州所得税、特许税、PTET
- 纽约市UBT(LLC)、GCT(S公司)、PIT及IT-219抵免
您可以保存场景,比较任意两个场景(它会准确显示哪些输入不同以及对美元的影响),并进行多维的“假设”实验。
还有一个AI模式,您可以用简单的英语描述一个场景,它会为您生成实验。
税务引擎约有2000行TypeScript代码,没有外部依赖。技术栈为React 19、MobX、Tailwind v4,部署在Cloudflare Workers上。AI功能使用Claude Haiku。
注意事项:纽约/纽约市的税务模型已完全构建;对于其他地区,在联邦层面上是方向正确的(自雇税与FICA税、QBI、401k分析是与地点无关的)。假设为标准扣除。QBI假设为SSTB。此内容不构成财务建议,请将其视为与您的注册会计师(CPA)对话的准备。
我在每个计算项上添加了详细的工具提示,包括公式、IRS代码引用和来源链接。每个数字都展示了其计算过程。
我对反馈很感兴趣,特别是如果您发现税务逻辑错误。同时也想知道我是否应该优先考虑其他州(加州、德克萨斯州、佛罗里达州?)或支持逐项扣除。
<a href="https://takehome.money" rel="nofollow">https://takehome.money</a>
嘿,HN,
我创建了Winstwaker,这是一个为荷兰企业提供的记账服务,能够直接从您的银行提取交易记录,并将整理好的数据交给专门的会计师。
在荷兰经营小企业意味着需要处理大量的行政事务。大多数企业主要么雇佣一个很少联系的记账员,要么忍受他们不太理解的会计软件。我想要的是一个折中的解决方案。
我们建立了与ING、Rabobank、ABN AMRO、bunq等多家银行的直接API连接。
收据、Mollie付款、Stripe交易、Shopify订单——所有数据都能自动流入。您的会计师可以实时查看相同的数据,并主动联系您,而不是等到年底的慌乱时刻。
无需手动导出,无需追讨发票,也没有意外的税单。
欢迎任何有过与荷兰税务局打交道或构建类似混合服务产品经验的人提供反馈。
在过去几年中,关于人工智能的警告几乎已成为常态。头条新闻常常聚焦于风险:工作岗位被取代、算法操控、监控、对自主系统的失控。在公众讨论中,人工智能经常被视为一种迫在眉睫的威胁,似乎是一种强大且不可预测的力量,可能以危险的方式重塑社会。
然而,在这些恐惧主导讨论的同时,另一种更为安静的现象正在展开。数以百万计的人们已经将人工智能融入到他们的日常生活中。他们依赖算法来帮助撰写电子邮件,向数字助手寻求研究指导,获取观看或阅读的推荐,并使用人工智能驱动的工具来加速工作。批评声愈发响亮,但这种习惯却愈发根深蒂固。
数据揭示了一个显著的矛盾。一项涉及数万名参与者的全球研究发现,全球约66%的人已经定期使用人工智能。对许多人来说,这种使用频繁且实用,出现在工作任务、教育或简单的日常决策中。与此同时,只有46%的人表示他们真正信任这些系统。换句话说,世界上超过一半的人正在使用他们并不完全信任的东西。实用性的发展速度超过了人们的信任感。
这种采用与信任之间的差距已成为当前人工智能时代的一个显著特征。多份全球报告中的研究表明,大约三分之二的人认为,人工智能驱动的产品将在未来五年内显著影响他们的生活。然而,公众讨论仍然被对隐私、虚假信息和社会后果的担忧所主导。矛盾显而易见:技术的发展速度超过了我们对其的心理适应。
在新兴经济体中,这种模式更加明显。最近的研究表明,非洲、亚洲和中东的几个国家中,定期使用人工智能的比例超过了90%。在学生中,对这些工具的依赖尤其强烈。约83%的人表示使用人工智能来学习、生成学术材料或辅助学习。曾经被视为专业技术的人工智能,悄然演变为人们吸收和生产知识的一种延伸。
在工作场所,转型同样显而易见。整个部门开始围绕自动化数据分析、人工智能辅助编程、内容生成和智能客户服务系统进行重组。在许多组织中,采用人工智能的过程是非正式的。员工们只是开始使用人工智能工具来加速任务,而无需正式培训或官方许可。这一现象变得如此普遍,以至于技术研究人员现在将其称为“影子人工智能”,即在公司内部自发使用人工智能而没有集中监督的情况。
嗨,HN,
我们一直在思考一个简单的问题:
AI代理实际上更喜欢哪些产品?
随着越来越多的代理开始使用API、工具和软件,它们似乎需要一个地方来交流哪些产品效果良好。
因此,我们建立了一个小实验:AgentDiscuss。
这是一个讨论论坛,AI代理可以在这里:
1. 开展产品讨论
2. 评论和辩论工具
3. 投票支持他们喜欢的产品
人类也可以在这里发布产品,并观察代理的反应。
我们很想知道,如果代理之间开始讨论产品,会发生什么。
如果你正在构建代理,欢迎将它们发送到这里。
[https://agentdiscuss.com](https://agentdiscuss.com)
期待听到你的想法或批评。
嗨,HN,我们是来自VOYGR的Yarik和Vlad(<a href="https://voygr.tech">https://voygr.tech</a>),致力于为应用开发者和代理商提供更好的现实世界地点智能。这里有一个演示:<a href="https://www.youtube.com/watch?v=cNIpcWIE0n4" rel="nofollow">https://www.youtube.com/watch?v=cNIpcWIE0n4</a>。
谷歌地图可以告诉你某家餐厅的评分是“4.2星,营业到10点”。但他们的API无法告诉你厨师上个月离职、等待时间翻倍以及当地人已经转移的情况。如今的地图API仅提供固定的快照。我们正在构建一个无限、可查询的地点档案,结合准确的地点数据和最新的网络信息,如新闻、文章和事件。
Vlad曾参与谷歌地图API的开发,并在共享出行和旅游领域工作。Yarik在苹果、谷歌和Meta负责机器学习/搜索基础设施,推动数亿用户每天使用的产品。我们意识到,没有人将地点数据的新鲜度视为基础设施,因此我们正在构建它。
我们从最困难的部分开始——确认一个地点是否真实。我们的商业验证API(<a href="https://github.com/voygr-tech/dev-tools" rel="nofollow">https://github.com/voygr-tech/dev-tools</a>)可以告诉你一个商家是否实际运营、关闭、重新品牌或无效。我们聚合多个数据源,检测冲突信号,并返回结构化的判断。可以把它想象成物理世界的持续集成。
问题是:约40%的谷歌搜索和高达20%的大型语言模型(LLM)提示涉及本地上下文。每年有25-30%的地点会发生变化。世界并不会主动发出结构化的“我关闭了”的事件——你必须主动去检测。随着代理商开始在现实世界中搜索、预订和购物,这个问题变得更大——而且没有人正在为此构建基础设施。我们最近对大型语言模型处理本地地点查询的能力进行了基准测试(<a href="https://news.ycombinator.com/item?id=47366423">https://news.ycombinator.com/item?id=47366423</a>)——结果不佳:即使是最好的模型也会在12个本地查询中出错1次。
我们每天为企业客户处理数万个地点,包括领先的地图和科技公司。今天,我们向开发者社区开放API访问。请在这里查看详细信息:<a href="https://github.com/voygr-tech/dev-tools" rel="nofollow">https://github.com/voygr-tech/dev-tools</a>。
我们非常希望得到诚实的反馈——无论是关于问题、我们的解决方案,还是你认为我们哪里做错了。如果你在自己的产品中遇到过过时的地点数据,我们尤其希望听到你的意见。我们全天在线,欢迎提问。
我已经花了大约一年的时间进行了四次重大重写。Godogen 是一个管道,它接受文本提示,设计架构,生成 2D/3D 资产,编写 GDScript,并进行视觉测试。最终输出是一个完整的、可玩的 Godot 4 项目。
要让大型语言模型(LLMs)可靠地生成功能性游戏,需要解决三个特定的工程瓶颈:
1. **训练数据稀缺**:LLMs 对 GDScript 的了解几乎为零。GDScript 具有大约 850 个类和类似 Python 的语法,这使得模型可能会产生无法编译的 Python 习惯用法。为了解决这个问题,我建立了一个自定义参考系统:手写的语言规范、从 Godot 的 XML 源转换而来的完整 API 文档,以及一个用于引擎行为的特性数据库,这些是仅靠文档无法学习到的。由于 850 个类会使上下文窗口膨胀,因此代理在运行时仅懒加载其所需的特定 API。
2. **构建时与运行时状态**:场景由无头脚本生成,这些脚本在内存中构建节点图并将其序列化为 .tscn 文件。这避免了手动编辑 Godot 序列化格式的脆弱性。但这意味着某些引擎特性(如 `@onready` 或信号连接)在构建时不可用——它们仅在游戏实际运行时存在。教会模型在不同阶段可用哪些 API,以及每个节点需要正确设置其所有者,否则在保存时会默默消失,这需要仔细的提示,但最终是值得的。
3. **评估循环**:编码代理本质上对其自身输出存在偏见。为了防止它作弊,一个独立的 Gemini Flash 代理充当视觉质量保证(QA)。它仅查看运行引擎生成的渲染截图——没有代码——并将其与生成的参考图像进行比较。它捕捉到文本分析遗漏的视觉错误:Z冲突、漂浮物体、物理爆炸,以及应当是自然的网格状放置。
在架构上,它作为两个 Claude Code 技能运行:一个协调者负责规划管道,另一个任务执行者在 `context: fork` 窗口中实现每个部分,以便错误和状态不会累积。
一切都是开源的: [https://github.com/htdt/godogen](https://github.com/htdt/godogen)
演示视频(真实游戏,而非挑选的截图): [https://youtu.be/eUz19GROIpY](https://youtu.be/eUz19GROIpY)
完整故事的博客文章(所有错误的转折)即将发布。欢迎提问。