1作者: agentic-wiki3 个月前原帖
最初作为一个病毒式传播的“Mac Mini”爱好者项目,最终以其创始人在情人节“硬启动”加入OpenAI而告终。<p>但真正的故事并不在于招聘本身,而在于供应链的衰退。<p>我对这一过渡的技术层面进行了审计,特别关注以下内容:<p>CVE-2026-25253(1-Click RCE):缺失的WebSocket源验证如何使任何网站都能劫持本地代理并窃取主机凭证。<p>“ClawdHub”中毒:一个未经审查的“技能”市场如何在社区被名称更改分散注意力时,成为AMOS信息窃取工具的传播机制。<p>氛围编码与工程:为何以“默认根权限”和没有权限边界的方式构建代理,使得这个项目对超过6万名开发者来说成为了致命的负担。<p>这篇文章对“致命三重奏”——代理AI的根访问、非信任内容暴露和缺失的防护措施进行了法医式的剖析。
2作者: sudeshss3 个月前原帖
开发了一款移动应用,能够生成可加密验证的已完成服务工作的证明。应用通过SHA-256对前后照片进行哈希处理,使用Ed25519进行签名,时间戳通过符合RFC 3161标准的freetsa进行锚定,并嵌入GPS坐标。 仅支持客户端验证,无需后端信任。签名在一个临时内存沙箱中进行本地验证。任何对照片、时间戳、GPS或元数据的篡改都会立即使签名失效。 技术栈:React Native、Golang、Ed25519、SHA-256、RFC 3161 TSA、通过Groq生成的AI工作叙述。 旨在解决零工经济中的信任问题。目标市场包括承包商、清洁工、快递员和物业管理。 现寻求出售完整的知识产权和源代码。联系方式:mozar.t@yahoo.com
8作者: mbuda3 个月前原帖
是否存在一个衡量人们能够有效处理多少数据的尺度,类似于“卡尔达肖夫数据尺度”?这样一个尺度可以叫什么名字?在Memgraph的社区电话会议中(https://youtu.be/ygr8yvIouZk?t=1307),提到AgenticRuntimes和GraphRAG可以使你在“卡尔达肖夫数据尺度”上向上移动,因为你突然能够从任何数据集中获得更多的洞察,而且每个人都可以使用它(大型企业并不控制它)。我在https://adamdrake.com/from-enterprise-decentralization-to-tokenization-and-beyond.html#productize上发现了一些类似的内容,但其定义/示例看起来非常狭窄。
1作者: beowa3 个月前原帖
大家好, 这是法律RAG基准(Legal RAG Bench),这是第一个用于同时评估法律RAG系统中的幻觉、检索失败和推理错误的基准。 我们基准的关键要点包括: 1. 嵌入模型,而非生成模型,是RAG准确性的主要驱动因素。从像OpenAI的文本嵌入3大型这样的通用嵌入模型切换到法律领域的嵌入模型,例如Kanon 2嵌入模型,可以将准确性提高约19个百分点。 2. 幻觉通常是由检索失败引发的。修复你的检索系统,在大多数情况下,你将最终修复幻觉问题。 3. 一旦你拥有一个稳固的法律检索引擎,所使用的生成模型就不那么重要;GPT-5.2和Gemini 3.1 Pro的表现相对相似,Gemini 3.1 Pro在准确性上稍微好一些,但代价是更多的幻觉。 4. 谷歌最新的LLM,Gemini 3.1 Pro,在法律RAG方面的表现实际上比其前身稍差,准确率为79.3%,而不是80.3%。 这些发现证实了我们之前的怀疑,即信息检索设定了法律RAG系统准确性的上限。无论你多聪明,如果没有访问到最新的加州车辆法典,你不可能神奇地知道加州超速的处罚是什么。 尽管如此,据我们所知,我们是第一个实际通过实证展示这一点的团队。 不幸的是,正如我们在报告中强调的,高质量的开放法律基准,如法律RAG基准和我们早期的庞大法律嵌入基准(MLEB),实在是少之又少。 例如,我们指出,流行的Vals AI CaseLaw(v2)基准所产生的LLM排名与我们的排名不可思议且截然不同,同时也未能正确评估端到端的RAG性能。由于CaseLaw(v2)是一个私有和专有的基准,我们无法确认我们发现的差异的来源,尽管我们怀疑它们源于严重缺陷的评估和标记方法。 为了透明起见,我们不仅详细说明了我们如何构建法律RAG基准,还在Hugging Face上公开发布了我们所有的数据,链接如下:<a href="https://huggingface.co/datasets/isaacus/legal-rag-bench/" rel="nofollow">https://huggingface.co/datasets/isaacus/legal-rag-bench/</a>。我们也将很快将我们的报告以论文形式发布。
1作者: YugaHashimoto3 个月前原帖
开源的Android语音助手应用程序,专为OpenClaw设计。<p>主要功能: - 离线唤醒词检测(Vosk) - VoiceInteractionService集成(长按主页键) - 实时聊天 + 流式响应 - 加密设置 + 设备身份 - 双语用户界面(英语/日语)<p>欢迎对架构、入门体验和生产环境的安全性提出反馈。
1作者: pulko3 个月前原帖
文档会出现偏差。README.md 中的示例可能与实现不再匹配,而持续集成(CI)通常不会注意到这一点。<p>我开发了 doksnet,这是一个小型的 Rust 命令行工具,它可以将文档部分与代码片段链接起来,并通过 Blake3 哈希值验证两者是否保持同步。<p>你可以定义如下的映射:<p>• README.md:15-25<p>• src/lib.rs:40-65<p>doksnet 将这些范围及其哈希值存储在一个紧凑的 .doks 文件中。doksnet test 会重新提取内容,如果有任何变化(包括空格),则会失败(退出代码 1)。<p>基本流程:<p>• doksnet new – 初始化<p>• doksnet add – 创建文档 ↔ 代码映射(交互式)<p>• doksnet test – CI 安全验证<p>• doksnet test-interactive – 审查/修复不匹配<p>它是本地仓库的,不依赖外部服务,也没有解析/抽象语法树魔法——仅仅是确定性的文本提取和哈希。<p>如果你想在 CI 中强制同步,还有一个 GitHub Action。<p>仓库: <a href="https://github.com/Pulko/doksnet" rel="nofollow">https://github.com/Pulko/doksnet</a> 安装:cargo install doksnet 网站: <a href="https://doksnet.pulko-app.com" rel="nofollow">https://doksnet.pulko-app.com</a><p>希望能收到对这种方法的反馈——特别是这个工具是否能比“根据新变化重写所有 README,确保没有错误”更有用,尤其是在 AI 使用受到限制的环境中。