返回首页
最新
大家好,我们是来自General Instinct的Guanming和Bill(<a href="https://general-instinct.com">https://general-instinct.com</a>)。
<p>经过多年的机器人领域工作,我们不断遇到同一个问题:最佳模型往往无法适配我们实际拥有的硬件。</p>
<p>表现最好的模型通常是基于数据中心的假设设计的:大型GPU、大量内存带宽和可靠的网络访问。但大多数物理系统却面临相反的限制。</p>
<p>这促使我们探索如何在确保模型前沿性的同时,使其能够在边缘硬件上实际运行。</p>
<p>作为这项工作的一个成果,我们最近开源了InstinctRazor(<a href="https://github.com/General-Instinct/InstinctRazor" rel="nofollow">https://github.com/General-Instinct/InstinctRazor</a>)。</p>
<p>我们特别兴奋的一项成果是将大约245 GB的BF16 MoE模型Qwen3.5-122B-A10B压缩到48 GiB的GGUF中。这个模型的体积实际上比Gemma-4-26B-A4B还要小,但在MMLU-Pro和GPQA-D等基准测试中表现更佳。我们保留了始终活跃的部分(如路由器、归一化层、Gated-DeltaNet/SSM层、视觉通路等),并对路由专家进行了更积极的量化。然后,我们使用在线蒸馏技术来恢复在量化过程中损失的能力。</p>
<p>该模型还可以在“小GPU”配置下运行,其中专家从系统RAM中流式传输。在8k上下文窗口下,峰值显存使用量约为7.6–8 GB。</p>
<p>如果您对技术细节感兴趣,我们在这里写下了相关方法(<a href="https://general-instinct.com/blog/frontier-moe-sub-4-bit">https://general-instinct.com/blog/frontier-moe-sub-4-bit</a>)。</p>
<p>我们尤其希望听到那些将模型部署到机器人或其他边缘设备上的人的反馈。您今天尝试在本地运行哪些模型?在将它们投入生产时,遇到的最大瓶颈是什么?</p>
我是一名后端开发者,但我对许多其他领域也很感兴趣:前端、人工智能、基础设施、架构和系统设计。我希望能够跟上这些领域的新思想和进展。
我的问题是,大多数变更日志和新闻来源给我提供的信息量太大。我花费很多精力去梳理这些信息,只是为了弄清楚哪些内容实际上是重要的。过一段时间后,我会感到信息过载,然后放弃并取消订阅所有内容。
所以现在我在寻找更多经过筛选的内容。也许是一个新闻通讯,或者一些对软件工程和特定技术有独到见解的人。我想关注那些能过滤噪音并清晰解释有趣部分的人。
目前我的订阅列表相当短:
- Hacker Newsletter
- Platformer
- The Pragmatic Engineer
你们都在读些什么?你们订阅了哪些报纸?
看到一家YC公司以10亿美元的估值筹集了2亿资金。网址是:https://www.starcloud.com/starcloud-4。此外,随着SpaceX即将上市,这似乎成为了一个重要的关注点。
请问有谁能从物理学的角度解释一下,为什么有人会认为这是个好主意?
为了更方便地与大语言模型(LLM)进行决策矩阵的迭代,请尝试以下链接:<a href="https://bmillare.github.io/design_in_practice_ui/" rel="nofollow">https://bmillare.github.io/design_in_practice_ui/</a>
我找不到一个好用的世界杯赛程可视化工具,于是决定自己制作一个。这个工具比我看到的其他工具要好。它不需要登录,没有广告,运行在客户端,使用本地存储,所有状态都编码在URL中,你可以分享这个链接。
日历功能非常不错。我想为我感兴趣的比赛制作自己的日程安排。还有一个完整的日历可以订阅,随着比赛安排的确定而更新。我也希望能够互动式地更改内容,并可视化整个淘汰赛阶段。
所有状态都在URL片段中。这是一个手动制作的紧凑字节格式,约203字节,约217个字符。这个URL包含了完整的快照,因此你分享的链接总是呈现相同的赛程。它是版本化的,这样你可以更改格式而不会破坏已有的链接。
目前这个工具已经实现了我想要的所有功能。可能里面还有一些真正的错误。如果你发现了,请告诉我。