返回首页
最新
我在一个为期3小时的编码会话中构建了一个小实验:一个由手势控制的实时T9键盘,完全在浏览器中运行。
它使用了:
- YOLOX进行手势检测
- ONNX Runtime Web进行浏览器内推理
- 普通JavaScript用于用户界面
最初的目标很简单:
我能否在浏览器中实现实时的基于手势的输入,而不冻结用户界面?
一些观察结果:
- 在现代笔记本电脑上,浏览器内的机器学习性能比我预期的要好。
- 微妙的手势区分(例如,类似的印章如老虎与公羊)需要比MediaPipe提供的更强的检测能力——YOLOX的表现明显更好。
- 光照一致性比手的大小更为重要。
- 这显然不是生产级别的,但它是一次有趣的浏览器视觉输入探索。
我很好奇其他人对手势接口作为替代输入系统的看法。
演示:
<a href="https://ketsuin.clothpath.com/" rel="nofollow">https://ketsuin.clothpath.com/</a>
你好,HN,
最近在HN上分享了一篇非常美丽的解释文章: [https://explainers.blog/posts/why-is-the-sky-blue/](https://explainers.blog/posts/why-is-the-sky-blue/)
我非常喜欢这篇文章,希望能有更多的话题以这种方式进行解释。因此,我决定对今天的前沿模型(Claude Code中的Opus 4.6)进行压力测试,以几乎一次性和最小的引导生成关于任何给定主题的类似解释。
我将从四个主题开始:傅里叶变换、生物中的尺度定律、元胞自动机和大型语言模型(LLMs)。
我会让你们来评判,但我自己非常喜欢这些内容。
我学到的一些东西:
- 使用无头Chromium测试CC构建的内容是至关重要的
- 解释中存在一些细微的错误(例如,在某个动画中,人类的寿命被设定为40年)
- 让CC通过Codex验证其计划效果很好
我想重申,生成的页面大多是一-shot,这让我感到惊讶,因为这些页面和动画都非常详细。
我构建了一个结构化的认知行为疗法(CBT)引擎,该引擎基于大型语言模型(LLMs)之上,先执行认知工作流程逻辑,然后再生成响应。
在这个领域,大多数人工智能工具纯粹是对话式的。而这个系统则:
- 提取认知扭曲信号
- 校准情感强度
- 应用基于规则的风险分级逻辑
- 将确定性检测与生成性草拟分开
- 强制执行语气预设和字数限制,以避免产生通用的输出
该系统有两种运行模式:
- 反思 → 结构化自我引导的重新框架
- 辅助 → 结构化信号提取 + 针对教练/治疗师的受限响应草拟
我的目标并不是再构建一个聊天机器人,而是探索大型语言模型是否可以在确定性的认知架构内受到约束。
我非常希望能收到正在构建结构化人工智能系统或工作流程受限的LLM工具的人的反馈。
我构建了一个四层自愈运行时,专为24/7运行的AI代理设计。<p>当网关出现故障时,它会进行升级处理:监视程序 → HTTP健康检查 → Claude代码“医生”(读取日志、诊断、自动修复) → Discord警报。<p>有趣的是,Claude代码既是患者也是医生。<br>开源,仅限bash,支持macOS/Linux。