返回首页
最新
在树莓派 Pico 2 W 上实现了软件 10BASE-T 以太网(使用 PIO 进行 TX 和 RX 的位操作)和无线路由器。该系统在 RP2350 的 RISC-V 核心上运行 cyw43 和一个异步执行器,使用廉价且简约的外部硬件(仅需一个磁性插座和 ISL3177E RS-485 收发器)。我想看看在这个便宜的基于 MCU 的 Wi-Fi 路由器构思上能走多远,并进一步了解在 RP2350 和 RISC-V 上使用 Rust 的相关知识。虽然这绝对不是一个适合家庭使用的路由器选择,但对于低速率的物联网流量来说可能会有一些用处。
关于我如何构建批量嵌入引擎 IgniteMS 的简要说明。
整个系统作为一个进程运行,使用 Rust 语言,负责读取输入、分词、打包批次,并保持队列满载。推理由 TensorRT 处理,Python 仅作为包装层。
我之所以这样构建,是因为当使用超过几张 GPU 时,GPU 不再是瓶颈。CPU 不能够足够快地为它们提供数据。一张 A100 的处理速度快于 Python 的分词和数据输入速度,因此 GPU 往往处于空闲状态,等待工作。我的大部分时间都花在了优化这一点上。在 8 张 GPU 的情况下,这基本上就是整个挑战。
关于成本。我在一个临时的 p4d 实例(8 张 A100 40GB)上运行了一个 20 亿消息的大型任务。经过过滤和去重,我得到了 6.85 亿条原始文本。使用我的新引擎,整个生产过程大约在半小时内完成。之前我为这些任务使用的是按需实例,现在切换到了临时实例。如果 AWS 收回了实例,我只需重新运行。半小时的运行成本大约为 7 美元。而且至少目前来说,临时实例比按需实例更容易获取。
公开警告:它仅支持批处理,并且仅适用于 NVIDIA。你可以将其作为 Docker 镜像或本地运行。
我在生产运行中使用了一些优化。在默认设置下,如果你在你的 p4d 实例上运行基准测试脚本,可以预期看到约 25 万条消息/秒的处理速度。
[基准测试文档链接](https://github.com/Artain-AI/ignite-ms/blob/main/BENCHMARKING.md)
v1.1.0 版本增加了 TensorRT 11 和 60 个模型,其中 23 个在 1x 和 4x A100 上进行了测试。
很高兴分享更多细节。
大型语言模型(LLMs)在SQL方面表现出色。SQL精确、表达能力强且没有歧义。如果将MCP服务器连接到Postgres,代理可以直接查询它。对于NoSQL数据库来说情况就不一样了,考虑到有这么多人使用NoSQL数据库,我对这一话题讨论不多感到惊讶。
问题的一部分在于多样性。MongoDB、DynamoDB、Cassandra、Redis和Neo4j都有不同的查询模型。没有一个共享的接口供LLM进行推理。因此,代理不仅要编写查询,还需要编写代码:SDK调用、手动聚合、分页逻辑。这使得过程变得更加复杂,审查起来也更困难,并且在处理任何非平凡的任务时很快就会出错。
我们在使用DynamoDB时遇到了这个问题,最终构建了自己的解决方案。如果有人感兴趣,我在这里写了相关内容:https://dynamosql.hashnode.dev/why-llm-agents-still-can-t-query-nosql-databases。但我更想知道其他人是如何处理这个问题的。为什么这仍然是一个未解决的问题呢?
在经历了数百场游戏的失败后,我意识到状态空间足够小,也许可以通过使用PPO训练一个小型神经网络,使其能够相对稳定地获胜。经过一些奖励工程的调整,它成功了!经过PPO训练的神经网络能够击败9%的所有对局,甚至一路打到精英四人组!
Headroom 是一款菜单栏应用程序,能够悄悄优化 Claude Code 的输入,通过减少提示冗余、去除模板内容以及压缩文档,而不改变您的工作方式。这使得您在已经支付的 Claude 计划上,能够使用约两倍的 Claude Code。与竞争对手不同,Headroom 应用程序完全开源,并且免费使用,非常适合希望最大化其 AI 编码助手投资的开发者和团队。
链接:
https://extraheadroom.com/
https://github.com/gglucass/headroom-desktop
https://x.com/garmdotcom
https://www.instagram.com/extraheadroom/
https://youtu.be/2NPBaqRGcOs