返回首页
最新
我需要一个分类器来处理一些细微且主观的分类,这些分类超出了典型的机器学习应用场景(例如,“这算是剧透吗?”,“这在事实上的正确性如何?”,“这个用户是在恶意攻击吗?”)。最终,我对自己构建的架构感到非常满意,因此将其推出为一个独立的API和服务,名为CriteriaBot。
**它的功能:**
你提供内容和用通俗英语描述的标准。它会给出一个真/假的裁决,判断该内容是否符合这些标准。
**工作原理:**
除了传统的分类器外,分类请求还会通过一组小型的开放权重的语言模型(LLM)进行路由,以达成共识裁决。我构建了一个预投票因子分解机,根据主题/类别的嵌入选择一个优化信号强度的LLM子池。第二个因子分解机则读取投票和嵌入,以得出单一裁决。该裁决会根据用户在语义相似评估中与模型的一致/不一致历史动态调整。
这些模型还连接到维基百科和Wolfram,以支持需要当前信息或数学基础的边缘案例。
**发现:**
* 在相同的框架和样本集下,Gemma 4 26B的准确率仅比Opus 4.8低约1个百分点。
* 纯预言机在理论上非常优秀——目前数据集的准确率约为98%。我使用第二个因子分解机作为组合器,因为它理论上可以超越预言机的结果,但它也是一个有趣的备选方案。
* 最有用的单一LLM令我感到惊讶——LFM2 24B对共识的贡献最大,尽管在当前的LLM池中它的表现最差。它与其他模型的相关性最低(可能是由于其独特的架构?),这使得它在某些问题上成为有用的信号。
* 处理用户提交的图像的法律义务相当复杂。在我解决这个问题之前,我已禁用非我的用户的图像支持(如果你希望尝试“热狗,不是热狗”)。
* Rails将“criteria”单数化为“criterium”,而我直到修复这个问题时才意识到这是错误的,修复过程相当繁琐。
**我为什么要发布:** 我已经处理了一段时间的倦怠,而让这个项目运行起来让我感到无比充实。我的大多数个人生活中的人都是非技术背景,因此很难得到超出“这是什么?”的反应。
我非常期待你们的任何诚实反馈。
这里有没有人将Claude/GPT完全替换为本地模型作为主要编码工具,而不仅仅是用于旁实验?如果有,请分享你的设置和性能(例如,token数)。
在价格上涨约30个月后,Hetzner再次提高了裸金属服务器的价格,这次涨幅为3-4倍:
<p>AX102: 从124欧元涨至454欧元
AX162(256GB):从244欧元涨至844欧元
嗨,HN!我对像 TikTok 和微信这样的应用程序限制我保存或下载动画 GIF 感到非常沮丧,因此我制作了一个小工具,可以将屏幕录制转换为适合 Slack 的表情符号。希望你能从中获得一些价值!
<a href="https://www.hetzner.com/pressroom/standardization-and-price-adjustment-of-our-server-products" rel="nofollow">https://www.hetzner.com/pressroom/standardization-and-price-...</a>