2作者: RoyalTnetennba大约 13 小时前原帖
我需要一个分类器来处理一些细微且主观的分类,这些分类超出了典型的机器学习应用场景(例如,“这算是剧透吗?”,“这在事实上的正确性如何?”,“这个用户是在恶意攻击吗?”)。最终,我对自己构建的架构感到非常满意,因此将其推出为一个独立的API和服务,名为CriteriaBot。 **它的功能:** 你提供内容和用通俗英语描述的标准。它会给出一个真/假的裁决,判断该内容是否符合这些标准。 **工作原理:** 除了传统的分类器外,分类请求还会通过一组小型的开放权重的语言模型(LLM)进行路由,以达成共识裁决。我构建了一个预投票因子分解机,根据主题/类别的嵌入选择一个优化信号强度的LLM子池。第二个因子分解机则读取投票和嵌入,以得出单一裁决。该裁决会根据用户在语义相似评估中与模型的一致/不一致历史动态调整。 这些模型还连接到维基百科和Wolfram,以支持需要当前信息或数学基础的边缘案例。 **发现:** * 在相同的框架和样本集下,Gemma 4 26B的准确率仅比Opus 4.8低约1个百分点。 * 纯预言机在理论上非常优秀——目前数据集的准确率约为98%。我使用第二个因子分解机作为组合器,因为它理论上可以超越预言机的结果,但它也是一个有趣的备选方案。 * 最有用的单一LLM令我感到惊讶——LFM2 24B对共识的贡献最大,尽管在当前的LLM池中它的表现最差。它与其他模型的相关性最低(可能是由于其独特的架构?),这使得它在某些问题上成为有用的信号。 * 处理用户提交的图像的法律义务相当复杂。在我解决这个问题之前,我已禁用非我的用户的图像支持(如果你希望尝试“热狗,不是热狗”)。 * Rails将“criteria”单数化为“criterium”,而我直到修复这个问题时才意识到这是错误的,修复过程相当繁琐。 **我为什么要发布:** 我已经处理了一段时间的倦怠,而让这个项目运行起来让我感到无比充实。我的大多数个人生活中的人都是非技术背景,因此很难得到超出“这是什么?”的反应。 我非常期待你们的任何诚实反馈。
81作者: tuhtah大约 15 小时前原帖
<a href="https://www.hetzner.com/pressroom/standardization-and-price-adjustment-of-our-server-products" rel="nofollow">https://www.hetzner.com/pressroom/standardization-and-price-...</a>