1作者: processorx3 个月前原帖
我用Rust构建了一个基于栈的编程语言,采用Cranelift JIT和SPIR-V GPU后端。<p>Kore大约有140个标记和142个操作码。程序是栈操作的序列——推送值、应用函数、通过连接进行组合。还有一个证明检查器,可以静态验证栈效应,以及一个能力系统,用于限制副作用。<p>我之所以走到这一步,是因为我想探索编译器是否可以作为训练大型语言模型(LLM)编写代码的奖励函数。大多数代码生成基准使用测试套件或人工评估。但如果编译器可以在执行之前验证正确性——在微秒内接受或拒绝——那么根本不需要测试工具。<p>这意味着我需要两个东西:一个足够小的语言,以便LLM能够学习完整的词汇,以及一个通过构造使生成程序安全的安全模型。<p>安全模型(P4:能力衰减):Kore中的每个副作用都由一个能力进行限制——io用于打印/随机,fs用于文件访问,exec用于shell命令。编译器会自动检测程序所需的内容并标记二进制文件。在运行时,您需要明确授予权限(--allow io),否则程序将无法运行。当您生成一个沙箱子进程时,它将获得parent_caps和requested_caps——它绝对无法提升权限。纯程序(没有能力)是确定性的,并且可以在任何后端上运行。<p>这很重要,因为编写Kore工具的AI代理在编译时可以证明该工具无法触碰文件系统或执行shell命令。这不是沙箱化——证明检查器会静态拒绝它。<p>我在478个课程任务上微调了DeepSeek-R1-14B(QLoRA,Unsloth),效果相当不错。可能会尝试一个MCTS+RL实验,看看它是否能学会编写程序来解决游戏和优化问题。最终目标是让它编写自己的编译器并自我托管。
4作者: mrswiftly3 个月前原帖
FeedbackKit:为多平台应用程序开发者打造的反馈管理平台 大家好!我是Ben,Swiftly Workspace的创始人,我正在推出FeedbackKit——一个为在多个平台上发布应用的开发者量身打造的完整反馈管理平台。 问题:大多数反馈工具要么是被遗弃的副项目,要么是过于复杂的企业解决方案,独立开发者和小团队难以使用。我需要一个积极维护、真正支持多平台且可持续发展的工具。 FeedbackKit的功能: - 支持iPhone、iPad和macOS的原生应用(目前正在App Store审核中,但您现在可以通过网页访问完整的管理门户)。不久之后,您将能够使用针对每个平台优化的原生SwiftUI应用随时随地管理反馈。 - 与用户进行双向沟通。当您更新反馈状态或留下评论时,用户会收到自动通知。这将单向提交转变为真实的对话,并建立信任。 - 超过10种集成,包括Linear、Slack、Notion、Trello、Asana、Monday、Airtable、Basecamp和Teamwork。反馈直接流入您现有的工作流程中。 - 即将推出:与Kit、Mailchimp、Mailerlite和Hubspot的集成。您将能够通过现有的电子邮件营销工具向用户通报功能进展,并将反馈循环无缝集成到您的应用中。 - 多平台SDK,简单集成。所有SDK目前均已完全功能化——原生支持Swift、JavaScript、React Native、Kotlin和Flutter。集成只需几分钟,而非数小时。 - 实时分析,跟踪反馈趋势、用户参与度和月经常收入(MRR)指标。 关于我:我在通过技术改变欧洲企业运营方面已有15年以上的经验——包括ERP实施、并购整合和实际产品开发。FeedbackKit并不是一个副项目;它是Swiftly Workspace的核心工作,正在持续开发和支持中。 定价:免费套餐开始。前100名注册用户可使用代码HACKERNEWS100享受首年50%的折扣。 试用地址:https://www.getfeedbackkit.com 我很想听听您的反馈(我知道这有点自我反省),并回答您关于平台、技术栈或方法的任何问题。
1作者: thompson00123 个月前原帖
嗨,HN——我想分享一个我刚开始的小型开源项目:agents-docs-kits。它是一个可重用文档“工具包”的集合,旨在帮助构建和运营人工智能代理,包括提示模板、运行手册/SOP、检查清单以及可以直接放入您自己代理库中的规范。 动机:我发现许多代理问题并不是模型问题,而是缺乏流程的问题(例如,范围不清、工具使用不一致、没有操作手册、没有共享约束)。这里的目标是使这一“乏味但关键”的层面易于重用,这样每个新的代理项目就不必从头开始。 仓库链接:<a href="https://github.com/thompson0012/agents-docs-kits/tree/main" rel="nofollow">https://github.com/thompson0012/agents-docs-kits/tree/main</a> 我希望能得到以下方面的反馈: - 您发现哪些文档材料对代理最有价值(除了提示本身)? - 您如何构建“代理指令”/仓库级指导,以确保其可维护性? - 提交PR时希望包含哪些模板:评估检查清单、工具安全政策、事件/运行手册模式或入职文档? - 如果您今天要创建一个新的代理仓库,您希望在“入门文档工具包”中包含哪些内容?
1作者: gjkim3 个月前原帖
嗨,HN,我是Axon的作者。 我创建这个工具是因为我想使用像Claude Code这样的智能工具,但我担心在本地机器上以--dangerously-skip-permissions的方式运行Claude。 Axon是一个自定义资源定义(CRD),为每个代理任务启动临时Pod。它创建了一个安全的爆炸半径。 自我测试:为了测试它,我使用Axon开发Axon。在这个周末,我运行了代理,读取了代码库,实现了功能和修复,并提交了拉取请求。我合并了其中的29个。这感觉就像有一支初级团队在并行工作。 这个代码库是用Go语言编写的。我很希望能得到关于控制器架构或CRD设计的反馈。
2作者: zhidao93 个月前原帖
我已经编写代码超过十年,现任职于nginx团队。最近,我让AI(Claude Code + Opus 4.6)从零开始编写了一个可编程的HTTP性能测试工具——使用C语言和QuickJS,约2000行代码,花了一天时间完成。然后我开始逐步重构其架构,每次提交一个小改动。 我所学到的并不完全符合两种观点——既不是“AI会取代我们所有人”,也不是“这只是炒作”。 *AI最危险的错误是不可见的。* jsbench允许用户编写调用fetch()的JS脚本进行负载测试。AI编写了这个功能和测试。报告显示:16,576个请求,0个错误。通过。但每一个fetch都失败了。工作线程没有事件循环——fetch()无法发送任何内容。代码只是无条件地将每次调用计为成功。AI编写的代码和AI编写的测试共享同样的盲点。不是崩溃——是那些运行正常、通过所有测试却产生错误结果的程序。 *在正确的方向下,AI就是你的整个团队。* fetch()不支持并发——Promise.all处理三个请求时耗时900毫秒,而不是300毫秒。AI实现了“伪异步”:Promise签名,内部同步阻塞。我知道该如何修复:注册一个全局事件循环,返回一个待处理的Promise,让循环驱动I/O。我给了AI问题、架构、现有代码和约束条件。它一次性解决了这个问题——9个文件,905毫秒变为302毫秒。如果我只是说“fetch有个bug”,它可能会绕过破损的架构进行修补。但明确的方向促成了正确的结构性变更。 *判断力是真正的倍增器。* 我将epoll和定时器组合成一个“引擎”对象——每个线程一个。简单的想法,但涉及6个文件,20多个调用点。AI没有遗漏任何一个,全部进行了修改。如果判断错误,AI也会同样彻底地应用这个错误。一次架构调用,应用于数十个文件——无论如何都具有巨大的杠杆效应。 *什么变得更有价值:* 架构判断——AI可以执行任何方向,但不会选择一个。代码审查——AI产生bug的速度与代码一样快;识别逻辑/架构问题现在成为了一种防御性必要。领域深度——我知道fetch()需要一个事件循环,因为我已经编写了十年的事件驱动系统,而不是因为一个好的提示。AI放大你已经拥有的能力;它并不创造能力。 *一句话:* 在AI时代,技术知识不是用来编写代码的——而是用来发现AI代码中的问题。看到问题,你就有了杠杆。错过了,你就是在信任一个会自信地告诉你一切都好的工具。 完整系列(持续更新):https://github.com/hongzhidao/jsbench/tree/main/docs