1作者: fizzbuzz078 天前原帖
大家好,这是我第一次在这里发帖 :) 在过去的几周里,我写了一个开源项目,旨在帮助人们从nanoGPT级别的LLM基础知识,逐步接近现代研究的深度学习前沿。 这个项目包含了数千行注释的代码,从零开始使用PyTorch实现了从推测解码到视觉/扩散变换器,再到线性和稀疏注意力等各种内容,还有更多其他功能。 我非常希望能听到大家对过去几年我错过的基础研究论文的反馈,或者任何其他方面的建议。这是我第一次在HN发帖,多年来我在这里看到了很多很酷的项目 :)