返回首页
最新
我对一张杂货店收据进行了视觉模型的测试。它返回了商店名称、商品列表和总金额,但这些信息在纸上都没有出现。
这并不是OCR错误。模型并没有将“7”误认为“1”。它是从头生成了一张看似合理的收据——不同的商店、不同的商品、不同的价格。如果我没有拿着原件,可能就不会发现这个问题。
同样的图像,使用不同的模型(参数数量相同,硬件相同),五秒钟后:每个商品都正确,商店名称正确,总金额精确到分。
这两个模型分别是:minicpm-v 8B(伪造)和qwen3-vl 8B(准确)。两者都是开源的,均为约6GB的显存,均在RTX 5080上通过Ollama本地运行。
我学到的几点:
1. 视觉模型的幻觉与文本模型的幻觉在性质上是不同的。文本模型会给出一个错误的答案来回应一个真实的问题,而视觉模型则会对它没有处理过的图像给出一个自信的答案。后者更难以检测。
2. 模型选择比提示工程对视觉模型更为重要。相同的提示,相同的图像——一个模型伪造了数据,另一个模型则准确读取。没有任何提示优化能够修复一个会虚构数据的模型。
3. 置信度评分是必须的。我增加了一个核对检查:提取的商品总和是否大致等于所述的总金额?这可以捕捉到在单个项目层面看似合理的伪造。
4. 解决方案并不是更多的资金或更大的模型。相同的大小(8B),相同的硬件,相同的成本($0)。只是不同的架构,能够实际读取像素,而不是生成关于它们的合理文本。
完整的写作包括管道架构和代码模式: https://dev.to/rayne_robinson_e479bf0f26/my-ai-read-a-receipt-wrong-it-didnt-misread-it-it-made-one-up-4f5n
我想要一个非常简单的方法,将提示、链接和待办事项列表导入我的Claude代码和Codex代理中。<p>并且能够在上下文窗口之外工作。这对于在Claude/ChatGPT等之间共享“项目”特别有效。<p>这是一个开源项目,地址在这里:<a href="https://github.com/Vochsel/dump.page" rel="nofollow">https://github.com/Vochsel/dump.page</a><p>你在板上放置的任何内容都会变成一个llms.txt - 通过连接边隐式和显式地进行空间排序。<p>很想听听HN的看法!
几周前我和一位招聘人员交谈,稍感惊讶的是,该职位的要求之一是具备使用大型语言模型(LLMs)构建软件的经验。这在科技招聘中已经成为新常态了吗?
在负载下调优EMERALDWISDOM以降低延迟——保持系统稳定而不进行过度工程的最佳方法是什么?