返回首页
24小时热榜
在Cajal(YC W26),我们很高兴地分享Talos(<a href="https://github.com/cajal-technologies/talos" rel="nofollow">https://github.com/cajal-technologies/talos</a>),这是一个用于在Lean中对WebAssembly模块进行形式验证的开源框架。
人工智能现在正在编写大量推向生产环境的代码。随着代码生成成本的降低,验证成为了瓶颈。我们相信未来每一款软件都应附带一份数学证明,证明其功能符合作者的意图——通过这种方式,消除许多类型的漏洞。Talos正是这一目标的基础之一。
Talos提供了一个针对二进制级推理优化的Wasm解释器,以及一个用于证明程序属性的最弱前置条件演算层。由于我们直接对WebAssembly进行推理,任何具有Wasm后端的语言都在我们的考虑范围内:Rust、C++、Go、C、Swift、Kotlin、Zig、C#等多种语言。
为了实现这一目标,我们使用Lean:一种编程语言和定理证明器,它允许您在一个系统中编写软件并数学证明其正确性。这使得Talos既可以作为可执行的解释器,又可以作为Lean进行推理的形式对象。Lean还与现代AI证明工具集成,通过证明搜索和直接评估自动完成目标。
要查看Talos的实际应用,可以查看对Stein的GCD算法的证明,该算法在流行的Rust库num-integer中实现:<a href="https://github.com/cajal-technologies/talos/blob/main/programs/lean/Project/NumInteger/Spec.lean#L562-L588" rel="nofollow">https://github.com/cajal-technologies/talos/blob/main/programs/lean/Project/NumInteger/Spec.lean#L562-L588</a>。
我们的路线图:
- 首先通过官方W3C测试套件实现全面的Wasm覆盖,然后再针对SpecTec(正式的Wasm规范)进行验证。
- 任意crate验证——任何编译为Wasm的Rust crate都应在考虑范围内。
- 构建我们的证明库codelib,以使验证日益复杂的程序变得可行。
我们非常希望听到社区对Talos的反馈以及对当前形式验证状态的评论。欢迎贡献!
大家好,我们是 Oskar、Szymon 和 Piotr,我们正在构建 TesterArmy(<a href="https://tester.army">https://tester.army</a>)。TesterArmy 是一个智能测试平台,在部署前和生产环境中进行端到端检查。我们不再浪费时间在手动测试或维护静态脚本上,而是让您用自然语言指定测试,平台会处理其中的一切。我们完全围绕代理构建了这个平台。我们的代理将可靠地执行测试,而您的编码代理可以管理平台中的所有内容,从用自然语言定义测试到代表您运行测试。
请查看我们的演示视频:<a href="https://www.youtube.com/watch?v=291IkUbPrlk" rel="nofollow">https://www.youtube.com/watch?v=291IkUbPrlk</a>。
我们创建 TesterArmy 是因为测试仍然太痛苦。人工智能编码工具使得编写和发布代码的速度大大加快,但测试仍然是一个瓶颈。传统的端到端测试设置缓慢且维护成本高。管理身份验证和测试用户非常麻烦。设置预发布环境也很麻烦。可靠地运行测试更是困难。
我们认为大多数团队并不想花时间编写选择器或维护测试基础设施。他们只想确保核心流程正常工作。使用 TesterArmy,工程师可以注册,给代理我们的命令行工具,然后让它处理创建测试和按计划或在 GitHub 上运行测试。
当出现问题时,TesterArmy 会通过 Slack 或 Discord 及时提醒您的团队。
在过去几个月里,我们的产品用户从零增长到每天有 30 多个团队使用。我们在关键流程中发现了错误,包括用户注册、结账和 AI 聊天。许多客户因为我们代理的质量和可靠性而从已经建立的竞争对手那里迁移到我们这里。
以下是我们代理发现的一些近期错误(数量相当多!):
1) 一个客户应用中的时区错误,影响了预订流程,仪表板非常复杂,人类难以发现。
2) 代理编排中的回归问题导致沙盒环境卡在加载状态,得益于 TesterArmy,团队能够在问题影响生产之前解决它。
3) 在一个复杂的仪表板结账流程中错误计算订单金额,得益于 TesterArmy,团队能够在影响收入之前解决它。
4) 捕捉到 AI 聊天流程中的回归问题,导致用户无法检索数据,因为工具调用出现故障。
还有许多其他问题,主要与一些错误的 API 调用、404 错误、未处理的错误等相关。
如果这听起来有用,我们非常希望听到您的反馈,您可以访问 <a href="https://tester.army">https://tester.army</a>。我们为您准备了一些免费的测试运行供您尝试。请放心,我们不会让您进行销售电话,也没有冗长的入职流程或烦人的设置。我们的目标是提供一种“开箱即用”的体验。
如果您正在寻找端到端测试解决方案,我们非常期待您的反馈!
我看到了一些文章讨论AI公司赚钱的更大机会。结果发现,如果我是创始人或运营者,基本上有六种不同的赚钱方式。我不确定风险投资界的共识是否完全滞后于实际情况,所以我才提出这个问题。
以下是我最近看到的几个想法:
1. **AI收购**:这是一个非常热门,有时被过度炒作的话题。它涉及收购那些与AI整合程度较低但急需人力服务的公司。例子包括小城镇的会计事务所、IT托管服务(有时外包)、法律服务(不一定是顶尖律师事务所,而是帮助现有客户的地方性事务所)以及保险。之所以这个话题引起关注,是因为有人可能会发现收购和精简公司比出售软件更具优势。如今的软件可能需要重新定位以建立护城河,而许多可以自动化的任务集中在服务行业,尤其是在价值链的低端。风险投资公司也在寻找新的资产,因为传统的SaaS模型不再提供高回报。
表面上,这似乎是有道理的。但我想,如果是这样,那我们为什么还需要风险投资?风险投资公司的存在似乎有些滞后于当前的情况,而且商业模式可能并不那么有效。风险投资的最佳时期是在移动和云计算时代。
2. **AI自动驾驶/原生AI服务公司**:这涉及到开发AI自动驾驶技术,大家都知道服务即软件,或者建立原生AI服务公司。公司正在关注保险经纪、会计或税务审计等领域,基于“行动系统”构建公司。这意味着整合SAP、Salesforce或ServiceNow等产品,以便用户不需要使用20个不同的页面来管理采购、入职、期末结算、工单升级等。
3. **公司大脑**:这条路径涉及将Slack、电子邮件、工单、会议和数据库整合成一个可以成为我们公司大脑的代理。这可能是组织重组的一种方式,因为代理将更好地理解公司。
4. **可验证的工作**:大家都知道在做可验证工作的公司,而编码是第一个用例。但自2024年我第一次尝试使用Cursor以来,我还没有看到其他用例像编码那样流行。这让我觉得公司和投资者正在努力寻找下一个编码用例,但我们还没有找到。我们看到在合同红线、支持解决方案、质量保证或IT事件摘要等领域的尝试,许多公司已经在这些方面开展工作。
我的问题是,自2022年以来投资于AI的数万亿美元是否旨在改善效率和节省成本这一更大主题?我知道公司有很多问题需要解决,但如果这是最大的用例,风险投资的回报在哪里?在我看来,许多事情可以由私募股权公司来完成。增长股权或私募股权公司可以利用杠杆收购并投资于这些用例。私募股权公司可以利用其投资组合公司收购大量旨在简化工作流程的AI企业。与目前被炒作的估值相比,回报可能会慢得多,也许3倍或4倍的回报将是非常好的消息。
我是否遗漏了什么重要的内容?这就是我在这里提问的原因。
顺便说一下,我不是专业人士,也不住在湾区;我目前在上海,所以可能有我没有掌握的信息。谢谢。
我开始意识到,在工作中很难找到那些说话有用或者表达简洁的人。(我在这方面也有责任)。我部分归咎于裁员,因为人们感到需要不断展现出很高的工作效率。
我该如何改善我的表达方式,使我的言辞简洁且有意图?我希望在发言时能够吸引大家的注意。我想做一个寡言的人,但即便沉默也能让人感受到我的参与感。
我想更新我的2026年阅读清单,加入一些最近发布或即将发布的有趣书籍。
当然,互联网充满了关于“最受期待”或“最热门”书籍的列表,但这些并不是我所寻找的。
我的阅读习惯与主流有些不符,通常不在最受欢迎书籍的列表中。(如果有帮助的话,我的一些最爱包括《苹果在中国》、《芯片战争》、《特种作战》(麦克拉文著)和《瓶颈》。)
我原以为Goodreads会是找到这类书籍的好地方,但结果让我感到失望。
你们是如何找到(好的)书籍来阅读的呢?
我在使用像Claude Code这样的工具时,难以进入那种黄金“构建者”状态。能够从零开始使用这些工具创建软件确实很酷,但输出的结果……我不知道,感觉并不像是我自己做的。也许是因为所需的努力太少,或者是因为我心里明白,基本上任何人只要有合适的提示都可以复制这些,软件本身也不再是一件特别的事情。
有没有人能够在使用这些工具时找到那种“满足感的状态”?因为我很想再次找到它。