返回首页
最新
我以前常常在HN和Github之间来回切换,寻找热门的仓库。现在我可以在一个地方看到所有这些内容,而且它会自动更新。
嘿,HN,
自从我发布了《像素年》(Year in Pixels)之后,这个想法就一直萦绕在我的脑海中。我在这个应用上不断添加一些小功能,现在感觉已经足够好,可以分享给大家了。
每日跟踪对一个人的心理状态产生的影响非常有趣。虽然我已经有应用来跟踪其他一切,比如睡眠、心率等,但我仍然缺少一个可以跟踪我情绪的工具。每天思考自己感觉如何几次,这个简单的行为就已经改变了很多,给人一个反思的时刻。
我决定添加占星术、习惯检查等其他功能。希望你们和我一样喜欢它。
祝好,
@kinduff
[1]: [https://news.ycombinator.com/item?id=16199871](https://news.ycombinator.com/item?id=16199871)
我必须承认,最新的模型和工具确实变得非常出色,能够在给出即使是普通提示的情况下快速生成可用的代码,真是“愿望编程”。<p>问题更多出在我这边,而不是大型语言模型(LLM)那边。我感觉我1) 对我的项目,甚至是我的爱好项目,失去了控制,因为LLM生成代码的速度太快,以至于我2) 懒得手动审核所有代码,尽管我确实有整体架构设计的选择,有时甚至有自然语言的伪代码。但是,自然语言本质上是不正式的,而编程的过程就是将非正式的需求扩展为正式的语言。这与软件工程中通过引入库来减少复杂性的抽象过程根本不同。结果是,不深入细节的实现会让我产生失控和缺乏信心的感觉。<p>这可能读起来并不连贯,因为这只是我随意的、不安的想法,但我相信至少有一些HN的朋友们也有过类似的感受。你们对此有什么看法?
为游戏开发生成图形和音频。图形包括像素艺术精灵、图标、HUD套件和视差背景。音频包括语音台词、音效和音乐——所有内容均来自文本提示。资产可导出为适用于Unity、Godot和GameMaker的引擎格式。通过MCP服务器(兼容Claude Code、Cursor等)或REST API提供服务。按需付费,每个艺术资产收费。
我需要一个分类器来处理一些细微且主观的分类,这些分类超出了典型的机器学习应用场景(例如,“这算是剧透吗?”,“这在事实上的正确性如何?”,“这个用户是在恶意攻击吗?”)。最终,我对自己构建的架构感到非常满意,因此将其推出为一个独立的API和服务,名为CriteriaBot。
**它的功能:**
你提供内容和用通俗英语描述的标准。它会给出一个真/假的裁决,判断该内容是否符合这些标准。
**工作原理:**
除了传统的分类器外,分类请求还会通过一组小型的开放权重的语言模型(LLM)进行路由,以达成共识裁决。我构建了一个预投票因子分解机,根据主题/类别的嵌入选择一个优化信号强度的LLM子池。第二个因子分解机则读取投票和嵌入,以得出单一裁决。该裁决会根据用户在语义相似评估中与模型的一致/不一致历史动态调整。
这些模型还连接到维基百科和Wolfram,以支持需要当前信息或数学基础的边缘案例。
**发现:**
* 在相同的框架和样本集下,Gemma 4 26B的准确率仅比Opus 4.8低约1个百分点。
* 纯预言机在理论上非常优秀——目前数据集的准确率约为98%。我使用第二个因子分解机作为组合器,因为它理论上可以超越预言机的结果,但它也是一个有趣的备选方案。
* 最有用的单一LLM令我感到惊讶——LFM2 24B对共识的贡献最大,尽管在当前的LLM池中它的表现最差。它与其他模型的相关性最低(可能是由于其独特的架构?),这使得它在某些问题上成为有用的信号。
* 处理用户提交的图像的法律义务相当复杂。在我解决这个问题之前,我已禁用非我的用户的图像支持(如果你希望尝试“热狗,不是热狗”)。
* Rails将“criteria”单数化为“criterium”,而我直到修复这个问题时才意识到这是错误的,修复过程相当繁琐。
**我为什么要发布:** 我已经处理了一段时间的倦怠,而让这个项目运行起来让我感到无比充实。我的大多数个人生活中的人都是非技术背景,因此很难得到超出“这是什么?”的反应。
我非常期待你们的任何诚实反馈。