返回首页
最新
使用我的工具创建的示例工具,将提示转换为“原生外观”的可执行文件:
```
$ READFORME.md --help
用法:READFORME.md [选项] --repo <repo> --info <info>
提示输入:
--branch <branch> 分支名称,默认为“main”
--repo <repo> GitHub 仓库名称
--info <info> 需要哪些信息 [可选值:summary, installation, example, quickstart]
```
这是一个非常实用的工具:从 GitHub 仓库的 README.md 文件中提取信息,例如,使用方法:
```
$ READFORME.md --repo tgalal/promptcmd --info summary
一个定义和运行可编程提示作为原生 CLI 命令的工具:创建 .prompt 模板,通过 promptctl 启用它们,并通过参数解析、标准输入/输出、多提供者模型支持、缓存和负载均衡来执行。
```
来自一则招聘信息(在论坛上发布)<p>> 必须具备:高自主性,极强的人工智能编程经验,热爱代理人胜过人类<p>在一家小型初创公司,我想拥有一位能够与最终用户互动并重视他们的工程师是非常重要的。<p>或者他们是在开发一种会对用户造成伤害的产品,因此更倾向于找一个愿意这样做的人?<p>或者这只是意味着与同事的互动会减少?<p>还是说这只是暗示可怜的工程师将被抛在一旁,不应期待得到支持?
我正在开发一种名为稀疏门控共振(Sparse Gated Resonance,SGR)的架构。这是一种序列建模方法,旨在避免传统自注意力机制的平方扩展。我已经在维克多·雨果的《巴黎圣母院》(英文版)上对比了一个722k参数的SGR与一个921k参数的Transformer模型。
SGR用“因果脉冲”替代了注意力机制。它使用门控一维卷积生成一个导航向量,与字符嵌入的脑图进行共振。这使得模型能够保持“活细胞”状态,并以线性复杂度进行更新。
完整源代码和实现: [https://github.com/MrPan2048/GeometricTransformer](https://github.com/MrPan2048/GeometricTransformer)
基准测试数据(《巴黎圣母院》):
| 步骤 | 架构 | 损失 | 困惑度(PPL) | 熵 | 时间 |
|------|------|------|---------------|----|------|
| 3900 | SGR | 1.4481 | 4.26 | 1.5476 | 19.0ms |
| | STD | 2.0275 | 7.59 | 2.1476 | 40.3ms |
语义比较(生成自“卡西莫多”):
SGR: “卡西莫多。然后思考着那种……”
STD: “卡西莫多 ng, o uer tre the todo hemo’He wand at tine.”
技术观察:
计算效率:SGR保持了显著的延迟优势,运行时间稳定在约19ms,而Transformer则约为40ms。这证实了线性脉冲相较于平方注意力的效率。
收敛质量:到第3700步,SGR达到了4.46的困惑度(PPL),而Transformer则滞后于8.36。SGR成功生成了可识别的英语短语和标点,而Transformer仍然表现出“口吃”伪影(例如,“卡西莫多多多”)。
熵稳定性:SGR的熵稳定在约1.54,这代表了英语文本的最佳“掌握区”。而Transformer的较高熵(约2.14)与其缺乏结构连贯性相关。
我希望能获得支持,以便在arXiv(CS.ML)上发表关于此架构的正式论文。我相信这些结果表明,“活细胞”共振模型在参数受限和延迟敏感的环境中可以超越注意力机制。如果您是一位愿意支持或审阅数学形式化的研究人员,请通过GitHub与我联系。