1作者: SunshineTheCat8 天前原帖
我会经历不同的阶段,不过我发现,在进行更密集的任务时,听一些没有歌词的音乐是非常有帮助的。<p>以下是我最近在听的音乐:<p>----<p>《探险33号》原声带, 《炉石传说》原声带, 《塞尔达传说》经典曲目(小提琴曲), 《指环王》原声带, 《霍比特人》原声带, 《纳尼亚传奇》原声带<p>古典音乐合集: 巴赫,莫扎特,贝多芬,维瓦尔第<p>----<p>我订阅了Apple Music,但我相信Spotify等平台也有这些音乐。<p>你最近有没有听过什么喜欢的音乐呢?
1作者: OpenSynapseLabs8 天前原帖
这是我在HN上的第一篇帖子——有点紧张,但也很兴奋能分享我正在构建的东西。 我一直在开发一个可以在消费级硬件上运行的7B稀疏专家混合模型原型。例如,在Colab T4上,它在训练期间使用大约5 GB的RAM和5 GB的显存,推理时大约需要3.5到5 GB。 我花了很多时间在几个方面: **路由(SmartRouter)** 我尝试以一种实用的方式解决路由崩溃的问题。与其让所有的token都倾向于几个“最爱”的专家,我结合了几种方法:负载均衡损失、保持分布平坦的熵奖励、训练期间的抖动噪声,以及一个可学习的温度。这个方法在保持大量专家活跃方面效果出乎意料地好。如果有人想查看数学原理或将其用于自己的项目,我已经开源了路由器代码(hive_router.py)。 **基础课程训练(FCT)** 在标准预训练之前,我让模型通过结构化推理模式进行训练——目前有290个模式,涵盖14个认知领域。每个模式遵循严格的顺序:观察 → 先验 → 更新 → 涟漪 → 类比 → 行动。 为了让这个在我的设置上实际运行,我做了几个特定的技巧。首先,我使用了目标专用损失(屏蔽标签和输入,仅对实际推理负载(如更新或行动)计算梯度)。其次,我不得不编写一个自定义的SparseExpertAdamW,只为在该步骤中实际活跃的专家实例化优化器状态。如果没有这个,20480个专家的优化器状态将会彻底压垮我的RAM。 到目前为止,我已经完成了14个领域中的5个。一个很酷的事情是:每个新领域的损失都低于前一个领域(例如,系统领域的损失从2.149降到0.941),这似乎表明跨领域迁移确实在发生。 **架构简述:** - d_model = 2048 - 10层(5个密集核心 + 5个融合层) - 20480个专家(8个领域 × 2560) - 动态Top-K(2–4) - 内存映射权重 + Dopamine Learning v1 模型已上传至HuggingFace:[https://huggingface.co/OpenSynapseLabs/arche3-7b](https://huggingface.co/OpenSynapseLabs/arche3-7b) 我将基准测试和图表放在了GitHub上:[https://github.com/OpenSynapseLabs/arche3-benchmarks](https://github.com/OpenSynapseLabs/arche3-benchmarks) **局限性(老实说):** 我还没有运行标准基准测试(MMLU、GSM8K、HumanEval),只有5/14个FCT领域完成,数据集仍然较小,需要适当扩展。此外,这目前是一个独立项目。我确实使用了Gemini和Claude来加速部分实现,但架构和核心思想都是我自己的。 我非常欢迎任何反馈,特别是如果你对MoE模型中的路由、课程预训练或进一步扩展(考虑到35B)感兴趣。 我的主要目标是构建能够增强人类思维的系统,而不是取代它。如果这听起来像是你想要参与或贡献的内容,请随时通过opensynapselabs@proton.me与我联系。我很乐意分享更多细节和私有仓库。 感谢阅读!
1作者: chmike8 天前原帖
退休的物理学教授奥古斯特·梅森(Auguste Meessen)自1960年代末以来一直在研究UFO现象。根据目击者的报告,他得出结论,这些飞行器必须使用电磁推进系统。 随后,他开发了脉冲电磁推进(PEMP)系统。其原理是,飞行器在恰当的时间和位置产生强烈的交变磁场,并使周围空气电离。这会产生洛伦兹力,从而通过反作用力推动飞行器。 他进一步研究了如何在实践中产生如此强烈的交变磁场。这使他发现了一种具有显著特性的全新振荡器——这种振荡器要求飞行器的外壳是超导的。这一设计的附带效果是能够屏蔽乘员免受强烈磁场的影响。如果这一点是正确的,那么在非常高的温度下(远高于室温)的超导性不仅是可行的,而且已经被制造这些飞行器的人掌握。 梅森教授随后转向了一个问题:如此高温超导性(VHTS)在物理上如何可能。他刚刚完成了这一研究方向,并发表了一项新理论,解释了镁如何能够成为这种超导体。在超导状态下,镁会形成非常强的化学键,这可能解释了罗斯威尔碎片所报告的异常物理特性。