我们分享了KernelEvolve,这是我们在Meta构建的一个自主系统,旨在自动生成和演化高性能内核,适用于异构AI加速器。
其核心动机在于,现代AI堆栈越来越依赖手动优化的内核(如GEMM、注意力机制、归约、融合操作),但为每个硬件目标(如NVIDIA GPU、AMD GPU、自定义加速器如MTIA)编写和调整这些内核并不具备可扩展性。
KernelEvolve将内核编程视为一个搜索与演化问题:
- 一个大型语言模型(LLM)生成候选内核(例如,类似Triton的代码)
- 内核在真实硬件上进行编译、基准测试和验证
- 性能反馈用于在多次迭代中演化出更好的变体
- 系统在大规模集群和多种加速器类型上扩展评估
与一次性代码生成不同,KernelEvolve通过闭环反馈、硬件在环的方式持续改进内核,并能够发现一些不明显的优化,这些优化的性能可以与专家编写的代码相媲美或超越。
在论文中,我们描述了:
- 代理架构和搜索空间设计
- 如何在异构加速器上高效扩展内核评估
- 案例研究,展示相较于手动调优基线的性能提升
- 在生产机器学习工作负载中部署该系统的实际经验教训
论文(arXiv):https://arxiv.org/abs/2512.23236(66页)
LinkedIn:https://www.linkedin.com/posts/gangliao_excited-to-share-our-recent-work-on-kernelevolve-activity-7411781675740897280-AQth?utm_source=share&utm_medium=member_desktop&rcm=ACoAAAzsrfsBRed-BvPAGqq9FgvVZ-v6F-sG4SM
我们非常希望能收到从事编译器、内核、机器学习系统或自主代码生成方法的朋友们的反馈。
返回首页
最新
我厌倦了好的计划在400条消息的讨论中消亡。我刚刚推出了一个最小可行产品(MVP),它将混乱的聊天转变为一个结构化的“物流层”,无需登录。
链接:https://squadinsync.com
为什么要这样做?聊天是一个流,而计划是一个状态机。我构建这个工具是为了将数据(地点/日期)与聊天内容解耦,这样你就可以在没有心理负担的情况下让你的团队保持同步。
我很想听听你对这种无摩擦流程的看法。