返回首页
最新
我在丹佛生活了几年,简单的机场接送费用实在有些疯狂。为了建立和扩展社区,我创建了“机场互换”平台。这个平台可以让人们免费交换机场接送服务。提供一次接送以换取一次接送!
“机场互换”的初衷是为了建立(或寻找)社区,依靠信任的圈子来选择司机和乘客(基本上是朋友的朋友)。我们的目标是连接住在同一条街道、同一栋楼或曾经参加过同一个桌游小组的人。
期待任何反馈 :)
祝好!
Mavera是一个受众智能API。您只需提供一条消息、产品原型或创意资产,它就会返回您目标利益相关者群体的情感和行为反应的预测分布。这是您在投入资金或推出任何内容之前测试假设的最佳方式。
为了展示这一点,我们在超级碗LX比赛之夜通过Mavera分析了所有101个广告:https://superbowl.mavera.io。我们模拟了不同平台和细分市场的受众情感和行为反应。我们在不到4小时内返回了每个广告的完整分析结果,提供了分布而非单一评分。
该模型是一个针对语言、情感和认知进行调整的生成对抗网络(GAN)。生成器产生合成的受众反应,判别器则根据人类基准进行验证。评分遵循“感受-思考-行动”的框架:情感激活、认知框架、行为预测。我们将评分与哈佛/伊利诺伊大学的OASIS基准进行了验证。情感反应的平均绝对误差(MAE)为0.02-0.15,而GPT和Claude则为1.0-2.5+。每个反应都包含一个置信度评分和一个幻觉风险评分。您还可以将意见分布、反应稳定性和新闻/市场背景影响评分整合到输出中。
该API与OpenAI兼容。只需将基础URL更改为app.mavera.io/api/v1,添加persona_id,您就可以使用50多个预构建的人物角色,或者自定义自己的角色。P99的延迟低于100毫秒。免费API密钥和文档请访问:https://docs.mavera.io/introduction。
我运营一个名为 best-gpu.com 的小项目,这是一个根据性价比对显卡进行排名的网站。在浏览 PC 组装论坛和 Reddit 时,我经常看到同样的问题:“我应该将当前的显卡升级到哪个?”大多数回答只是列出一些显卡,而没有展示实际的性能提升,因此人们常常花钱进行升级,但性能提升却微乎其微。
因此,我开发了一个小工具:显卡升级计算器。
你只需输入当前的显卡,它就会显示:
- 预计的性能提升
- 基于价格与性能的价值评分
- 经过筛选的升级选项列表(品牌、价格、显存等)
这个工具的目标就是帮助人们避免在那些并不值得的升级上花钱。
我很想听听 HN 对这个方法、数据来源或能让这个工具更有用的功能的反馈。
<a href="https://best-gpu.com/upgrade.php" rel="nofollow">https://best-gpu.com/upgrade.php</a>
大多数人工智能代理框架提供自动化功能,但没有一个能够提供控制能力。<p>NSED v0.5.1推出了我们一直在构建的人机协作控制平台:操作员可以在代理进行决策时暂停它们,审查并编辑缓冲的响应,然后再将其提交到下游,可以在不重启的情况下实时修补配置,并通过分数偏差自动标记表现不佳的代理。<p>操作员用户界面采用零依赖的纯JavaScript构建——没有npm图谱,也没有任何被妥协的包注册表能够注入到对实时代理响应具有控制权的控制平台中。<p>对于受监管的部署:欧盟人工智能法第14条、MAS AIRM和FINRA 2026都要求可证明的人类监督。这就是满足该要求的架构——您可以直接从源代码库审计其实现。
嗨,HN,我之所以构建这个,是想看看是否可以在独立研究人员可获取的硬件上对大词汇量的语言模型(如具有262k个标记的Gemma)进行预训练。
在这个规模下,标准的精确交叉熵在16GB的GPU上会立即出现内存溢出(OOM)。
为了绕过这个问题,我实现了MAXIS损失。它使用“幽灵逻辑”(Ghost Logit)来数学上模拟未采样标记的缺失概率质量,而不是实际生成完整的262k宽矩阵。
在一块16GB显存的显卡(T4)上的基准测试结果如下:
在损失层中,比经过Triton优化的Liger内核快17.5倍。
在目标计算中,显存减少了约39%。
还包括RandNLA注意力机制,它使用因果克罗内克草图(Causal Kronecker Sketching)来保持内存平坦,随着序列长度的增长。
我在代码库中包含了技术报告和正式的数学推导。我非常希望能收到关于分区函数模拟或草图方法的任何技术反馈。
UI 测试容易脆弱,因为它们依赖于脆弱的定位器(如 XPath/ID)。测试在本地通过,但当 CI 中的 UI ID 发生变化时就会失败,这导致了持续的维护和开发时间的浪费。
Finalrun 用人类可读的规范替代了定位器。您可以编写简单的英文指令(例如,“点击设置,搜索‘西班牙语’,验证‘Español’”),然后一个基于视觉的 QA 代理像人类一样驱动应用程序——因此重命名的 ID 不会导致测试失败。
使用简单英文代理进行移动应用测试时,规范驱动的方法运作顺利,几乎不需要维护:
1. 代理可以分析您的代码库,
2. 自动生成边缘案例规范(包括设置/清理),并将其导出为 .md 测试文件,
3. 现在您可以通过 CLI 运行测试(例如:./mobile-cli run ./test/search.md)。
如果您希望提前访问或在代码开源时获取代码,我正在收集电子邮件:
<a href="https://docs.google.com/forms/d/1EwHjqK6t1pBQgsKWih1Z_hQqP837elhl7hVbUGLHqV0" rel="nofollow">https://docs.google.com/forms/d/1EwHjqK6t1pBQgsKWih1Z_hQqP83...</a>
(此外,演示视频:<a href="https://youtu.be/SsVHRDWk_ss" rel="nofollow">https://youtu.be/SsVHRDWk_ss</a>)
我一直在尝试为物理世界开发一个更主动的人工智能接口。<p>这个项目是为智能眼镜设计的饮品制作助手。它会查看原料,选择食谱,展示步骤,并根据所观察到的情况实时指导我。我最希望实现的功能很简单:在我倒酒时,它应该告诉我何时停止,而不是等我询问。<p>演示视频在自述文件的顶部。<p>我所追求的互动模型就像是身边一个懂得情况并在适当时机介入的助手。我认为这种接口特别有助于防止人们在操作中可能忽视的错误。<p>该系统通过每0.5秒在最新的0.5秒视频片段上持续运行Qwen3.5-27B来工作。我使用了Overshoot(<a href="https://overshoot.ai">https://overshoot.ai</a>)进行快速的实时视频VLM推理。由于它处理的是短片段而不是单帧,因此能够捕捉运动线索和视觉上下文。在我的案例中,推理每个片段大约需要300-500毫秒,这使得反馈在这种互动中感觉足够灵敏。基于VLM返回的事件,应用程序处理其余部分:状态跟踪、进度管理以及语音和LLM处理。<p>我之前尝试过使用微调的RF-DETR目标检测模型进行类似的想法。那种方法在成本上更具优势,并且也可以在设备上运行。但VLM的灵活性更高:我可以通过提示改变行为,而不需要重新训练,并且它们能够处理比单纯的目标检测更广泛的情境理解。然而,在实际应用中,对于小型快速的VLM,提示的措辞非常重要。获得可靠的行为意味着要了解特定模型对哪些类型的提示能够持续响应。<p>我通过制作无酒精鸡尾酒进行了测试,但我认为这种互动模式应该可以推广到更广泛的烹饪场景。我计划尝试更多的例子,看看在哪些方面效果良好,在哪些方面出现问题。<p>有一件事情似乎很难,那就是检查液体的液位,尤其是当液体几乎透明时。到目前为止,我只用VLM尝试过这个,我很好奇还有哪些其他方法可能有效。<p>欢迎提出问题和反馈。