有时候,我的儿子会问我一些“为什么”的问题,这些问题可以通过适合儿童的哲学文章来很好地解答。但我不知道在哪里找到这些文章,所以我会问Claude或ChatGPT,并有一个特定的工作流程来获取我想要的输出。
我想其他人也可能会觉得这些AI生成的文章有帮助,所以我把它们放在这里: [https://philosophy.ocaho.com/](https://philosophy.ocaho.com/)
页面顶部有一个搜索框。
返回首页
一周热榜
Duo 开辟了一种新的习惯养成和学习方式,换句话说,选择是无穷无尽的……<p>还有什么是可以获得的/需要的?
我需要一个分类器来处理一些细微且主观的分类,这些分类超出了典型的机器学习应用场景(例如,“这算是剧透吗?”,“这在事实上的正确性如何?”,“这个用户是在恶意攻击吗?”)。最终,我对自己构建的架构感到非常满意,因此将其推出为一个独立的API和服务,名为CriteriaBot。
**它的功能:**
你提供内容和用通俗英语描述的标准。它会给出一个真/假的裁决,判断该内容是否符合这些标准。
**工作原理:**
除了传统的分类器外,分类请求还会通过一组小型的开放权重的语言模型(LLM)进行路由,以达成共识裁决。我构建了一个预投票因子分解机,根据主题/类别的嵌入选择一个优化信号强度的LLM子池。第二个因子分解机则读取投票和嵌入,以得出单一裁决。该裁决会根据用户在语义相似评估中与模型的一致/不一致历史动态调整。
这些模型还连接到维基百科和Wolfram,以支持需要当前信息或数学基础的边缘案例。
**发现:**
* 在相同的框架和样本集下,Gemma 4 26B的准确率仅比Opus 4.8低约1个百分点。
* 纯预言机在理论上非常优秀——目前数据集的准确率约为98%。我使用第二个因子分解机作为组合器,因为它理论上可以超越预言机的结果,但它也是一个有趣的备选方案。
* 最有用的单一LLM令我感到惊讶——LFM2 24B对共识的贡献最大,尽管在当前的LLM池中它的表现最差。它与其他模型的相关性最低(可能是由于其独特的架构?),这使得它在某些问题上成为有用的信号。
* 处理用户提交的图像的法律义务相当复杂。在我解决这个问题之前,我已禁用非我的用户的图像支持(如果你希望尝试“热狗,不是热狗”)。
* Rails将“criteria”单数化为“criterium”,而我直到修复这个问题时才意识到这是错误的,修复过程相当繁琐。
**我为什么要发布:** 我已经处理了一段时间的倦怠,而让这个项目运行起来让我感到无比充实。我的大多数个人生活中的人都是非技术背景,因此很难得到超出“这是什么?”的反应。
我非常期待你们的任何诚实反馈。
这里有没有人将Claude/GPT完全替换为本地模型作为主要编码工具,而不仅仅是用于旁实验?如果有,请分享你的设置和性能(例如,token数)。
SunCalc 是我最早的开源项目之一——我在 15 年前进行了第一次提交,自那时以来它得到了许多精彩的应用,但近几年有些被忽视。现在,现代 AI 工具使我能够弥补多年来积累的技术债务和用户问题,我终于有能力复兴这样的项目,并保持它们的良好状态。
v2 是一个新版本,它将太阳的计算准确性提高了 5 倍,月球的提高了 20 倍,这一改进经过了与美国海军天文台的真实数据进行的广泛测试验证。此外,它还修复了大量问题,并通过 ESM 现代化了分发方式。希望你喜欢这个版本。