返回首页

一周热榜

1作者: arnold_laishram6 天前原帖
UI 测试容易脆弱,因为它们依赖于脆弱的定位器(如 XPath/ID)。测试在本地通过,但当 CI 中的 UI ID 发生变化时就会失败,这导致了持续的维护和开发时间的浪费。 Finalrun 用人类可读的规范替代了定位器。您可以编写简单的英文指令(例如,“点击设置,搜索‘西班牙语’,验证‘Español’”),然后一个基于视觉的 QA 代理像人类一样驱动应用程序——因此重命名的 ID 不会导致测试失败。 使用简单英文代理进行移动应用测试时,规范驱动的方法运作顺利,几乎不需要维护: 1. 代理可以分析您的代码库, 2. 自动生成边缘案例规范(包括设置/清理),并将其导出为 .md 测试文件, 3. 现在您可以通过 CLI 运行测试(例如:./mobile-cli run ./test/search.md)。 如果您希望提前访问或在代码开源时获取代码,我正在收集电子邮件: <a href="https://docs.google.com/forms/d/1EwHjqK6t1pBQgsKWih1Z_hQqP837elhl7hVbUGLHqV0" rel="nofollow">https://docs.google.com/forms/d/1EwHjqK6t1pBQgsKWih1Z_hQqP83...</a> (此外,演示视频:<a href="https://youtu.be/SsVHRDWk_ss" rel="nofollow">https://youtu.be/SsVHRDWk_ss</a>)
1作者: yousef_g6 天前原帖
嗨,HN,我之所以构建这个,是想看看是否可以在独立研究人员可获取的硬件上对大词汇量的语言模型(如具有262k个标记的Gemma)进行预训练。 在这个规模下,标准的精确交叉熵在16GB的GPU上会立即出现内存溢出(OOM)。 为了绕过这个问题,我实现了MAXIS损失。它使用“幽灵逻辑”(Ghost Logit)来数学上模拟未采样标记的缺失概率质量,而不是实际生成完整的262k宽矩阵。 在一块16GB显存的显卡(T4)上的基准测试结果如下: 在损失层中,比经过Triton优化的Liger内核快17.5倍。 在目标计算中,显存减少了约39%。 还包括RandNLA注意力机制,它使用因果克罗内克草图(Causal Kronecker Sketching)来保持内存平坦,随着序列长度的增长。 我在代码库中包含了技术报告和正式的数学推导。我非常希望能收到关于分区函数模拟或草图方法的任何技术反馈。
1作者: t_peersky6 天前原帖
大多数人工智能代理框架提供自动化功能,但没有一个能够提供控制能力。<p>NSED v0.5.1推出了我们一直在构建的人机协作控制平台:操作员可以在代理进行决策时暂停它们,审查并编辑缓冲的响应,然后再将其提交到下游,可以在不重启的情况下实时修补配置,并通过分数偏差自动标记表现不佳的代理。<p>操作员用户界面采用零依赖的纯JavaScript构建——没有npm图谱,也没有任何被妥协的包注册表能够注入到对实时代理响应具有控制权的控制平台中。<p>对于受监管的部署:欧盟人工智能法第14条、MAS AIRM和FINRA 2026都要求可证明的人类监督。这就是满足该要求的架构——您可以直接从源代码库审计其实现。
1作者: kzisme6 天前原帖
我在丹佛生活了几年,简单的机场接送费用实在有些疯狂。为了建立和扩展社区,我创建了“机场互换”平台。这个平台可以让人们免费交换机场接送服务。提供一次接送以换取一次接送! “机场互换”的初衷是为了建立(或寻找)社区,依靠信任的圈子来选择司机和乘客(基本上是朋友的朋友)。我们的目标是连接住在同一条街道、同一栋楼或曾经参加过同一个桌游小组的人。 期待任何反馈 :) 祝好!