6作者: michaeld12324 天前原帖
我喜欢联想词游戏。这是一个可以玩的文字游戏,您需要匹配相对的词块。在经过大量机制的游戏测试后,我认为反义词与麻将单人游戏的结合非常有趣。 当前一代前沿的大型语言模型(LLMs)无法创造出比“热-大-快”更有趣的谜题。除非提示能够引导LLM进入新的语言领域,否则新的推理总是围绕着一小部分概念循环。制作谜题需要图遍历。 我通过算法生成了20个关卡,因为我使用了一个拥有超过1亿条边的大型语义图,这个图是通过手动词典编纂和数百万次LLM推理(各种模型)构建的。我不断探索这个图中可以涌现出的内容。谜题是随机选择的;重新加载可以看到其他谜题。 前端是使用Claude Code构建的。 也许有一天我会把这个做成一款手机游戏,增加复杂性和挑战。如果您是游戏开发者,欢迎随意拆解并借用其中的任何部分。
7作者: felix08924 天前原帖
嘿,HN!在“洗车测试”帖子引发了热烈讨论(超过400条评论,<a href="https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=47128138">https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=47128138</a>)后,我花了几周时间开发了一个工具,让任何人都可以提出类似的问题并获得结构化的结果。无需注册,免费使用。 你只需输入一个问题,定义答案选项,从200多个模型中选择最多50个模型,它们将在相同条件下独立作答。没有系统提示,输出结构化,所有模型的设置相同。 你还可以进行辩论回合,让模型们看到彼此的推理,并有机会改变自己的观点。然后,一个审阅模型会总结完整的对话记录。所有模型都通过我的初创公司Opper进行路由。欢迎任何反馈! 希望你喜欢这个工具,期待听到你的想法!
1作者: alexsmolen24 天前原帖
我在AWS安全领域工作多年,查询CloudTrail一直是个大麻烦——获取类似“这个角色在过去30天内实际使用了什么?”的数据,要么需要编写自定义查询和结果解析代码,要么只能从像Access Analyzer这样的内置工具中获取模糊的数据。 TrailTool的核心理念是在数据摄取时预先聚合CloudTrail事件为实体关系——人员、会话、角色、服务、资源——这样查询就变成了对DynamoDB的读取,而不是日志扫描。CLI直接使用标准AWS凭证与您的DynamoDB表进行交互,无需API层。 文章中的四个工作流程(ClickOps检测、最小权限策略生成、AccessDenied修复、紧急验证)都是我实际手动执行的任务。会话记录是真实的Claude Code运行结果,使用了该工具。 我想知道这对大家是否有用,或者是否还有其他CloudTrail问题可以通过这种方式预先计算,以完成常见任务。
1作者: dhruvghulati24 天前原帖
Clarity 是一个 Slack 机器人,旨在作为私人沟通教练,直接解决远程工作中最大的障碍:沟通不畅。通过使用大型语言模型(LLMs),Clarity 在您发送消息后分析内容,提供针对语气和清晰度等问题的即时自动编辑。 核心技术难点在于评估“良好沟通”,这本质上是主观的,无法依赖标准测试集。为了解决这个问题,我们设计了一个复杂的多LLM评估流程。一个强大的LLM合成了初步的标记测试集,第二个LLM作为精确度和召回率的评判者,第三个LLM则不断自动调整标记LLM的提示,从而提高了我们系统准确性的信心。此外,我们还建立了一个专门的代理,模拟 Clarity 在各种合成工作空间中的操作——这些工作空间涵盖了不同的行业、领域和在冲突情况下的人物,以进一步验证其性能。 我们有意将 Clarity 作为一个以个人为中心的产品推出,以降低使用门槛,战略目标是在转向团队模型(M1)之前建立使用基础。目前,我们正在寻求社区对该产品的反馈,以便在扩展我们的影响力之前进行改进。
5作者: kasperstorgaard24 天前原帖
嗨,HN, 我开发了Skub,这是一款基于经典桌游“反弹机器人”的浏览器滑块拼图游戏。 最初,我的挑战是尝试简化桌游的机制,以适应移动浏览器,这促成了一个8x8的网格。 此后,它逐渐演变为一个更具实验性的项目,使用Deno,并让我真正尝试AI辅助开发。Claude Code在构建广度优先搜索(BFS)求解器和设置持续集成(CI)方面特别有帮助,但在用户界面和逻辑方面的帮助相对较少。 希望你们喜欢这款游戏,欢迎提出任何问题或反馈。
41作者: Heff24 天前原帖
当私募股权收购了你十多年前创办的旧公司,并解雇了维护你所创立的热门开源项目的团队时,你该怎么办?你重启它,并邀请一些新朋友一起参与。<p>Video.js 每月被数十亿人使用,遍布 Amazon.com、Linkedin 和 Dropbox 等网站,但它的状态并不理想。只有一小部分维护者在用过时的架构尽力维持,但这远远不够。因此,来自 Plyr 的 Sam、Vidstack 的 Rahim,以及 Media Chrome 的 Wes 和 Christain 一起加入,帮助我将其重建得更好、更快、更小。<p>现在它处于测试阶段。请试用一下,并告诉我们有什么问题。