8作者: mbuda3 个月前原帖
是否存在一个衡量人们能够有效处理多少数据的尺度,类似于“卡尔达肖夫数据尺度”?这样一个尺度可以叫什么名字?在Memgraph的社区电话会议中(https://youtu.be/ygr8yvIouZk?t=1307),提到AgenticRuntimes和GraphRAG可以使你在“卡尔达肖夫数据尺度”上向上移动,因为你突然能够从任何数据集中获得更多的洞察,而且每个人都可以使用它(大型企业并不控制它)。我在https://adamdrake.com/from-enterprise-decentralization-to-tokenization-and-beyond.html#productize上发现了一些类似的内容,但其定义/示例看起来非常狭窄。
1作者: beowa3 个月前原帖
大家好, 这是法律RAG基准(Legal RAG Bench),这是第一个用于同时评估法律RAG系统中的幻觉、检索失败和推理错误的基准。 我们基准的关键要点包括: 1. 嵌入模型,而非生成模型,是RAG准确性的主要驱动因素。从像OpenAI的文本嵌入3大型这样的通用嵌入模型切换到法律领域的嵌入模型,例如Kanon 2嵌入模型,可以将准确性提高约19个百分点。 2. 幻觉通常是由检索失败引发的。修复你的检索系统,在大多数情况下,你将最终修复幻觉问题。 3. 一旦你拥有一个稳固的法律检索引擎,所使用的生成模型就不那么重要;GPT-5.2和Gemini 3.1 Pro的表现相对相似,Gemini 3.1 Pro在准确性上稍微好一些,但代价是更多的幻觉。 4. 谷歌最新的LLM,Gemini 3.1 Pro,在法律RAG方面的表现实际上比其前身稍差,准确率为79.3%,而不是80.3%。 这些发现证实了我们之前的怀疑,即信息检索设定了法律RAG系统准确性的上限。无论你多聪明,如果没有访问到最新的加州车辆法典,你不可能神奇地知道加州超速的处罚是什么。 尽管如此,据我们所知,我们是第一个实际通过实证展示这一点的团队。 不幸的是,正如我们在报告中强调的,高质量的开放法律基准,如法律RAG基准和我们早期的庞大法律嵌入基准(MLEB),实在是少之又少。 例如,我们指出,流行的Vals AI CaseLaw(v2)基准所产生的LLM排名与我们的排名不可思议且截然不同,同时也未能正确评估端到端的RAG性能。由于CaseLaw(v2)是一个私有和专有的基准,我们无法确认我们发现的差异的来源,尽管我们怀疑它们源于严重缺陷的评估和标记方法。 为了透明起见,我们不仅详细说明了我们如何构建法律RAG基准,还在Hugging Face上公开发布了我们所有的数据,链接如下:<a href="https://huggingface.co/datasets/isaacus/legal-rag-bench/" rel="nofollow">https://huggingface.co/datasets/isaacus/legal-rag-bench/</a>。我们也将很快将我们的报告以论文形式发布。
1作者: YugaHashimoto3 个月前原帖
开源的Android语音助手应用程序,专为OpenClaw设计。<p>主要功能: - 离线唤醒词检测(Vosk) - VoiceInteractionService集成(长按主页键) - 实时聊天 + 流式响应 - 加密设置 + 设备身份 - 双语用户界面(英语/日语)<p>欢迎对架构、入门体验和生产环境的安全性提出反馈。
1作者: pulko3 个月前原帖
文档会出现偏差。README.md 中的示例可能与实现不再匹配,而持续集成(CI)通常不会注意到这一点。<p>我开发了 doksnet,这是一个小型的 Rust 命令行工具,它可以将文档部分与代码片段链接起来,并通过 Blake3 哈希值验证两者是否保持同步。<p>你可以定义如下的映射:<p>• README.md:15-25<p>• src/lib.rs:40-65<p>doksnet 将这些范围及其哈希值存储在一个紧凑的 .doks 文件中。doksnet test 会重新提取内容,如果有任何变化(包括空格),则会失败(退出代码 1)。<p>基本流程:<p>• doksnet new – 初始化<p>• doksnet add – 创建文档 ↔ 代码映射(交互式)<p>• doksnet test – CI 安全验证<p>• doksnet test-interactive – 审查/修复不匹配<p>它是本地仓库的,不依赖外部服务,也没有解析/抽象语法树魔法——仅仅是确定性的文本提取和哈希。<p>如果你想在 CI 中强制同步,还有一个 GitHub Action。<p>仓库: <a href="https://github.com/Pulko/doksnet" rel="nofollow">https://github.com/Pulko/doksnet</a> 安装:cargo install doksnet 网站: <a href="https://doksnet.pulko-app.com" rel="nofollow">https://doksnet.pulko-app.com</a><p>希望能收到对这种方法的反馈——特别是这个工具是否能比“根据新变化重写所有 README,确保没有错误”更有用,尤其是在 AI 使用受到限制的环境中。
1作者: fabiosuizu3 个月前原帖
我开发了一个英语发音评估引擎,体积仅为17MB,并且在CPU上运行时间不到300毫秒。<p>架构:CTC强制对齐 + GOP评分 + 集成头(MLP + XGBoost)。不使用wav2vec2或大型自监督模型——整个流程采用量化的NeMo Citrinet-256作为声学骨干。<p>在speechocean762(标准学术基准,2500个发音)上进行基准测试: - 音素准确率(PCC):0.580 — 超过人类标注者间的一致性(0.555) - 句子准确率:0.710 — 超过人类一致性(0.675) - 模型体积比基于wav2vec2的最先进技术小70倍<p>权衡:在原始准确率上,我们比最先进技术低约10-15%。但对于语言学习应用中的实时反馈而言,这种延迟/体积的权衡是值得的。<p>可作为REST API、MCP服务器(用于AI代理)以及在Azure市场上提供。<p>演示:<a href="https://huggingface.co/spaces/fabiosuizu/pronunciation-assessment" rel="nofollow">https://huggingface.co/spaces/fabiosuizu/pronunciation-assessment</a><p>希望获得关于评分方法和人们认为有价值的用例的反馈。