1作者: huang4fun3 个月前原帖
我在一个为期3小时的编码会话中构建了一个小实验:一个由手势控制的实时T9键盘,完全在浏览器中运行。 它使用了: - YOLOX进行手势检测 - ONNX Runtime Web进行浏览器内推理 - 普通JavaScript用于用户界面 最初的目标很简单: 我能否在浏览器中实现实时的基于手势的输入,而不冻结用户界面? 一些观察结果: - 在现代笔记本电脑上,浏览器内的机器学习性能比我预期的要好。 - 微妙的手势区分(例如,类似的印章如老虎与公羊)需要比MediaPipe提供的更强的检测能力——YOLOX的表现明显更好。 - 光照一致性比手的大小更为重要。 - 这显然不是生产级别的,但它是一次有趣的浏览器视觉输入探索。 我很好奇其他人对手势接口作为替代输入系统的看法。 演示: <a href="https:&#x2F;&#x2F;ketsuin.clothpath.com&#x2F;" rel="nofollow">https:&#x2F;&#x2F;ketsuin.clothpath.com&#x2F;</a>
3作者: paraschopra3 个月前原帖
你好,HN, 最近在HN上分享了一篇非常美丽的解释文章: [https://explainers.blog/posts/why-is-the-sky-blue/](https://explainers.blog/posts/why-is-the-sky-blue/) 我非常喜欢这篇文章,希望能有更多的话题以这种方式进行解释。因此,我决定对今天的前沿模型(Claude Code中的Opus 4.6)进行压力测试,以几乎一次性和最小的引导生成关于任何给定主题的类似解释。 我将从四个主题开始:傅里叶变换、生物中的尺度定律、元胞自动机和大型语言模型(LLMs)。 我会让你们来评判,但我自己非常喜欢这些内容。 我学到的一些东西: - 使用无头Chromium测试CC构建的内容是至关重要的 - 解释中存在一些细微的错误(例如,在某个动画中,人类的寿命被设定为40年) - 让CC通过Codex验证其计划效果很好 我想重申,生成的页面大多是一-shot,这让我感到惊讶,因为这些页面和动画都非常详细。
1作者: sucharithan3 个月前原帖
我构建了一个结构化的认知行为疗法(CBT)引擎,该引擎基于大型语言模型(LLMs)之上,先执行认知工作流程逻辑,然后再生成响应。 在这个领域,大多数人工智能工具纯粹是对话式的。而这个系统则: - 提取认知扭曲信号 - 校准情感强度 - 应用基于规则的风险分级逻辑 - 将确定性检测与生成性草拟分开 - 强制执行语气预设和字数限制,以避免产生通用的输出 该系统有两种运行模式: - 反思 → 结构化自我引导的重新框架 - 辅助 → 结构化信号提取 + 针对教练/治疗师的受限响应草拟 我的目标并不是再构建一个聊天机器人,而是探索大型语言模型是否可以在确定性的认知架构内受到约束。 我非常希望能收到正在构建结构化人工智能系统或工作流程受限的LLM工具的人的反馈。
1作者: ramsbaby-dev3 个月前原帖
我构建了一个四层自愈运行时,专为24/7运行的AI代理设计。<p>当网关出现故障时,它会进行升级处理:监视程序 → HTTP健康检查 → Claude代码“医生”(读取日志、诊断、自动修复) → Discord警报。<p>有趣的是,Claude代码既是患者也是医生。<br>开源,仅限bash,支持macOS/Linux。