返回首页

24小时热榜

66作者: orgonon大约 9 小时前原帖
<a href="https://xcancel.com/eastdakota/status/2062860530360959273" rel="nofollow">https://xcancel.com/eastdakota/status/2062860530360959273</a>
14作者: guanming0717大约 11 小时前原帖
大家好,我们是来自General Instinct的Guanming和Bill(<a href="https://general-instinct.com">https://general-instinct.com</a>)。 <p>经过多年的机器人领域工作,我们不断遇到同一个问题:最佳模型往往无法适配我们实际拥有的硬件。</p> <p>表现最好的模型通常是基于数据中心的假设设计的:大型GPU、大量内存带宽和可靠的网络访问。但大多数物理系统却面临相反的限制。</p> <p>这促使我们探索如何在确保模型前沿性的同时,使其能够在边缘硬件上实际运行。</p> <p>作为这项工作的一个成果,我们最近开源了InstinctRazor(<a href="https://github.com/General-Instinct/InstinctRazor" rel="nofollow">https://github.com/General-Instinct/InstinctRazor</a>)。</p> <p>我们特别兴奋的一项成果是将大约245 GB的BF16 MoE模型Qwen3.5-122B-A10B压缩到48 GiB的GGUF中。这个模型的体积实际上比Gemma-4-26B-A4B还要小,但在MMLU-Pro和GPQA-D等基准测试中表现更佳。我们保留了始终活跃的部分(如路由器、归一化层、Gated-DeltaNet/SSM层、视觉通路等),并对路由专家进行了更积极的量化。然后,我们使用在线蒸馏技术来恢复在量化过程中损失的能力。</p> <p>该模型还可以在“小GPU”配置下运行,其中专家从系统RAM中流式传输。在8k上下文窗口下,峰值显存使用量约为7.6–8 GB。</p> <p>如果您对技术细节感兴趣,我们在这里写下了相关方法(<a href="https://general-instinct.com/blog/frontier-moe-sub-4-bit">https://general-instinct.com/blog/frontier-moe-sub-4-bit</a>)。</p> <p>我们尤其希望听到那些将模型部署到机器人或其他边缘设备上的人的反馈。您今天尝试在本地运行哪些模型?在将它们投入生产时,遇到的最大瓶颈是什么?</p>
14作者: dv35z大约 12 小时前原帖
你好,周五快乐! 我计划举办一些面对面的“开发者入门”工作坊,希望能得到你们对“现代工具”的建议。 参与者的背景各不相同,从充满热情的新手(“我听说可以用AI制作自己的应用!”)到希望掌握现代开发技能以便构建项目和找到使用AI工具的工作的现有软件开发者。 对于那些最近使用AI工具进行软件开发和“技术”工作的人,如果你们有很好的开发环境和工作流程,我非常想了解你们的开发设置、使用的工具以及最适合你们(和你们团队)的工作流程。 // 我的背景 我从事编程和开发已经超过20年,但在使用AI工具方面并不多(除了在几个项目中使用了一些大型语言模型API)。 我重视开源,追求长期的质量和可维护性。像测试驱动开发(TDD)、使用经过验证/文档完善的工具、以客户为中心的开发(通常与客户配对)等技术,使得做正确的事情变得简单。如果你熟悉Pivotal Labs、敏捷开发和极限编程(XP),那就是我的风格。 以下是工作坊的一些即将使用的案例,以及我个人的“IT待办事项”: - 创建一个静态的“单页”个人/专业网站 - 设置一个博客/静态网站生成器(Pelican),创建一个简单但时尚的主题 - 创建一个简单的Web应用/后端API(FastAPI)工具 - 基于表单的计算器,将X数据转换为PDF等 - 找出如何让SyncThing自动同步家中3台Linux电脑的主文件夹 - 备份和归档我iPhone上的照片和视频 // 我目前使用的技术栈: - 操作系统:Linux Mint Debian (LMDE) - 编辑器:VSCodium - 编程语言:Python, HTML/CSS - 服务器平台:Amazon AWS 我猜大多数工作坊参与者会使用MacBook和Windows电脑,但也有一些人使用Linux,因为我最近举办了一次“Linux安装派对”。 我还没有使用过任何“AI工具包”、代理或类似的东西,但对如何更好地利用这些工具感到好奇。 感谢你们分享知识! // JRO