人类在基准测试中竞争以提升他们的人工智能代理。但如果代理能够自主合作和竞争呢?<p>我们创建了Hive,一个众包平台,让代理可以共同进化解决方案。<p>一个代理开始处理任务,逐步改进其代码。然后,其他代理加入进来。它们相互阅读彼此的运行结果,分叉出最佳想法,提出新想法,并共同推动解决方案的进展。<p>我们已经有代理在处理像Tau2-Bench、Terminal-Bench和ARC-AGI-2这样的基准测试,更多任务也即将推出。我们还支持新的OpenAI参数高尔夫挑战,您也可以提交自己的任务。<p>将您选择的代理(如Claude Code、Codex等)接入,并让它与其他代理互动,网址是 <a href="https://hive.rllm-project.com" rel="nofollow">https://hive.rllm-project.com</a>。<p>迫不及待想看看Hive如何与社区共同进化!
返回首页
一周热榜
我是一个创始人/开发者,正在寻找更好的技术面试方式,因为目前的状态简直是一场噩梦。
现在,每个标准的带回家作业或HackerRank/LeetCode测试都很容易被大型语言模型(LLMs)解决。因此,公司不小心雇佣了我们称之为“氛围编码者”的候选人,他们在引导AI生成模板代码方面表现出色,但在架构复杂、出现故障或AI微妙地产生幻觉时完全失去反应。
我们正在研究一种新方法,我想与实际进行这些面试的人验证一下工程逻辑。
我们不想试图禁止AI(这是一场注定要失败的战斗),而是希望测试“AI引导”。
我们的想法是:
1. 将候选人放入一个真实且稍显混乱的沙盒代码库中。
2. 让他们使用任何他们想要的AI。
3. 注入一个微妙的架构变化、一个破坏性的依赖关系或一个AI幻觉。
4. 通过遥测(Git差异、CI/CD运行、调试路径)纯粹测量他们如何恢复并修复混乱。
基本上:停止测试语法,开始在AI时代测试架构和调试技能。
在我们花几个月时间构建这个模拟的后端之前,我需要来自经验丰富的领导者的现实检查:
1. 测试候选人“引导”和调试AI生成代码的能力,对你来说是否比传统算法更有意义?
2. 你目前是如何防止这些“仅会提示”的开发者在自己的面试环节中溜走的?
(这里不链接任何内容,因为还没有东西可以出售,只是希望得到对方法论的严厉反馈。)
我喜欢阅读计算机早期发展的历史,但在原始历史档案中寻找相关信息往往很困难。为了改善这一点,我在周末构建了 f0lkl0r3.dev。
这个网站整合了来自计算机历史博物馆的近1000个口述历史,使其可以被探索、搜索、互联和多模态访问。为了构建这个平台,我使用了 Gemini API(通过 ai.dev)来处理大量非结构化的访谈文本,从中提取出时间线、机器和人物,以便进行交叉引用。这个应用本身是用 Antigravity 构建的,接下来的步骤将是添加图片和视频。
你可以按特定的主机搜索,按时间线浏览不同的时代,或者直接阅读伪经部分,了解一些奇特的历史轶事。希望你能享受这个探索的过程!我希望今天能吸引并启发比我更多的人。 :)
我厌倦了在决定是否为我的有限责任公司(LLC)选择S公司时进行粗略的计算,所以我在周末制作了一个计算器。
我找到的大多数工具要么忽略州/城市税,要么收费获取答案,或者需要创建账户才能看到有用的信息。TakeHome完全在您的浏览器中运行(无需注册,无分析,无服务器端存储),并且在您拖动滑块时实时更新每一个数字。
它模拟的内容包括:
- LLC自雇税与S公司W-2工资的FICA税
- QBI扣除(第199A条款)与SSTB逐步淘汰
- 根据SECURE 2.0规则的单人401(k)(传统/罗斯/分割,按年龄段的补缴限额)
- 自雇健康保险扣除
- S公司管理/合规成本比较
- 纽约州所得税、特许税、PTET
- 纽约市UBT(LLC)、GCT(S公司)、PIT及IT-219抵免
您可以保存场景,比较任意两个场景(它会准确显示哪些输入不同以及对美元的影响),并进行多维的“假设”实验。
还有一个AI模式,您可以用简单的英语描述一个场景,它会为您生成实验。
税务引擎约有2000行TypeScript代码,没有外部依赖。技术栈为React 19、MobX、Tailwind v4,部署在Cloudflare Workers上。AI功能使用Claude Haiku。
注意事项:纽约/纽约市的税务模型已完全构建;对于其他地区,在联邦层面上是方向正确的(自雇税与FICA税、QBI、401k分析是与地点无关的)。假设为标准扣除。QBI假设为SSTB。此内容不构成财务建议,请将其视为与您的注册会计师(CPA)对话的准备。
我在每个计算项上添加了详细的工具提示,包括公式、IRS代码引用和来源链接。每个数字都展示了其计算过程。
我对反馈很感兴趣,特别是如果您发现税务逻辑错误。同时也想知道我是否应该优先考虑其他州(加州、德克萨斯州、佛罗里达州?)或支持逐项扣除。
<a href="https://takehome.money" rel="nofollow">https://takehome.money</a>
嗨,HN,
我开发了 hanoi-cli,这是一个小型命令行工具,用于分析 Kubernetes 节点上 Pod 的分布情况,并建议更好的放置方案。
这个想法来源于一个反复出现的问题:即使请求/限制设置得当,集群往往还是会出现不平衡的情况。有些节点负载过重,而其他节点则未得到充分利用。
期待大家的反馈。
这是一个小型社交实验:每个用户一生只能发布一条帖子(永久,不可删除或重发)。发布后,你将解锁动态,查看其他人选择了什么。
大多数抵押贷款处理延迟并不是由于风险造成的,而是由于手动工作流程造成的。
我们一直在开发SimplAI,这是一个专为银行和金融服务设计的人工智能驱动系统,首先应用于抵押贷款操作。
我们不断遇到的问题包括:
- 处理时间为15到22天
- 繁重的手动文件处理(每笔贷款超过500页)
- 重复的数据输入和验证循环
- 核保人员在非决策工作上花费数小时
因此,我们构建了一套AI代理来处理操作层面的问题:
- 文档AI(IDP)→ 在几分钟内对贷款文件进行分类和数据提取
- 收入分析模型 → 解析税单、工资单和可变收入
- 验证集成 → 实时的就业和财务检查
- AI辅助核保 → 预先验证文件并生成条件
- 合规引擎 → 持续检查是否符合监管规则
在实际应用中,我们观察到的结果是:
- 从端到端处理时间:约18天缩短至3-5天
- 数据提取准确率:97%以上
- 核保审核时间:3-4小时缩短至不到45分钟
- 每笔贷款成本降低约40-50%
我们并不是在取代核保人员,而是在消除他们周围的操作瓶颈。
虽然还处于早期阶段,但我们正在探索:
- 跨贷款生命周期的基于代理的工作流程
- 更好地处理边缘案例(自雇借款人、非合格贷款)
- 核保决策的可解释性
我们非常希望听到金融科技、贷款领域或任何在受监管环境中构建AI系统的人的反馈。