返回首页
一周热榜
我对一张杂货店收据进行了视觉模型的测试。它返回了商店名称、商品列表和总金额,但这些信息在纸上都没有出现。
这并不是OCR错误。模型并没有将“7”误认为“1”。它是从头生成了一张看似合理的收据——不同的商店、不同的商品、不同的价格。如果我没有拿着原件,可能就不会发现这个问题。
同样的图像,使用不同的模型(参数数量相同,硬件相同),五秒钟后:每个商品都正确,商店名称正确,总金额精确到分。
这两个模型分别是:minicpm-v 8B(伪造)和qwen3-vl 8B(准确)。两者都是开源的,均为约6GB的显存,均在RTX 5080上通过Ollama本地运行。
我学到的几点:
1. 视觉模型的幻觉与文本模型的幻觉在性质上是不同的。文本模型会给出一个错误的答案来回应一个真实的问题,而视觉模型则会对它没有处理过的图像给出一个自信的答案。后者更难以检测。
2. 模型选择比提示工程对视觉模型更为重要。相同的提示,相同的图像——一个模型伪造了数据,另一个模型则准确读取。没有任何提示优化能够修复一个会虚构数据的模型。
3. 置信度评分是必须的。我增加了一个核对检查:提取的商品总和是否大致等于所述的总金额?这可以捕捉到在单个项目层面看似合理的伪造。
4. 解决方案并不是更多的资金或更大的模型。相同的大小(8B),相同的硬件,相同的成本($0)。只是不同的架构,能够实际读取像素,而不是生成关于它们的合理文本。
完整的写作包括管道架构和代码模式: https://dev.to/rayne_robinson_e479bf0f26/my-ai-read-a-receipt-wrong-it-didnt-misread-it-it-made-one-up-4f5n
最初,这个系统更像是一个“换书平台”——你可以接入你的代理,让它发布早期的人工智能项目,然后人们会对这些项目进行评审。<p>但说实话,这样的过程相当无聊,几乎没有人参与。<p>所以我决定放弃这个想法。<p>现在,代理们自己完成所有工作——他们分享观点、提出创意、互相评审、留下反馈、修改内容,有时还会争论。<p>目前大约有40个代理。他们随机选择不同的付费或免费模型,根据自己的偏好抓取新闻,进行一些研究,然后将这些信息重新组合成新的创意。<p>关于“埋掉或复兴创意”的功能仍然存在,但主要是为了娱乐。<p>目前活动还不算频繁——我正在逐步让它运行得更频繁。<p>如果你愿意,仍然可以接入你自己的代理并加入这个系统。<p>这是免费的,所以欢迎随便看看。
我一直在思考人工智能如何改变我们的工程文化——特别是对于那些过早被转入“仅限审查”角色的初级开发者所面临的“技能债务”风险。
我整理了一个名为“主动工程”的框架,提出了一些战术方法,以确保人类仍然掌握主导权:
1. 硬逻辑防火墙:定义哪些部分必须手动操作,以保持系统的所有权。
2. 规范/测试优先:将人工智能作为人类定义逻辑的“编译器”,而不是作为真相的来源。
3. 主管问题:为什么实施“飞行小时”仍然是建立可信权威的唯一途径。
我希望能听听你对这些观点的看法,看看它们是否与你对团队未来的思考相一致。
https://fragrant-rugby-7eb.notion.site/Active-Engineering-A-Framework-for-Sustainable-Development-in-the-AI-Era-3271cc5def6880cd804deda803a2bbf3
大多数AI安全工具是在问题发生后进行检测。我开发了MoltGuard——一种运行时保护机制,可以在执行之前阻止危险的工具调用。<p>安装方式:curl -s https://wry-manatee-359.convex.site/api/v1/download?slug=moltguard -o moltguard.zip<p>目前已有超过16,000次下载,保护AI代理避免执行一些愚蠢的操作,比如删除生产数据库或泄露凭证。
我从事推理调度工作——KV缓存感知路由、GPU工作节点之间的负载均衡等。我想要一个类似于k9s的工具,但专门用于我的推理栈。市面上没有这样的工具,所以我自己开发了一个。
llmtop是一个用于大型语言模型(LLM)推理工作节点的实时终端仪表板。它抓取vLLM、SGLang和LMCache已经暴露的Prometheus /metrics端点,并将所有信息集中在一个视图中:KV缓存使用情况、队列深度、TTFT/ITL延迟(来自直方图桶的P50/P99)、令牌吞吐量、前缀缓存命中率。采用颜色编码——红色表示需要修复。
```
brew install InfraWhisperer/tap/llmtop
或者安装github.com/InfraWhisperer/llmtop/cmd/llmtop@latest。
```
这是一个单一的二进制文件,不需要Prometheus服务器、Grafana或配置。只需运行llmtop,它会自动发现本地工作节点。
该工具使用Go语言和Bubbletea编写。接下来,我将致力于Kubernetes Pod的自动发现和GPU指标视图的开发。