返回首页
一周热榜
嗨,HN——我正在探索一个想法,希望能得到你们的反馈。
我是一名 Obsidian 的构建者和用户,正在验证一个名为“关注点”的概念。目前这只是一个登陆页面和简短的调查(还没有产品),目的是测试这个痛点是否真实存在。
核心想法(2-3 个要点):
- 我们中的许多人捕捉了大量有用的信息(笔记/链接/文档),但这些信息很少转化为实际的工作成果。
- 我并不是在寻找更好的“组织方式”(标签/文件夹),而是在探索一个“行动引擎”,它能够:
1. 检测你正在积极关注/工作的内容(“活跃项目”)
2. 在合适的时刻呈现相关的已保存材料
3. 提出具体的下一步行动(理想情况下推送到你现有的任务工具中)
我自己的“第二大脑”变成了良好意图的墓地:组织的成本高于我获得的价值。我正在尝试验证真正的瓶颈是执行,而不是信息捕捉。
在编写代码之前,我想明确两件事情:
- 项目上下文信号(代码库/拉取请求?问题?任务?日历?“项目文档”?)
- 如何闭环:获取知识 → 针对活跃项目进行排名 → 将一小组下一步行动输出到现有的待办工具中 → 从结果中学习(完成/被忽略/编辑),并可选择写回最小状态。开放性问题是:在不产生噪音或隐私风险的情况下,最干净的反馈信号是什么?(显式评分 vs 完成事件 vs 基于文档的写回)
我想向你们询问:
1. 你的“第二大脑”在哪个环节最容易崩溃?
捕捉 / 组织 / 检索 / 执行
(如果可以,请分享一个具体的近期例子。)
2. 今天对你来说,什么最能代表“活跃项目上下文”?
- 任务项目(Todoist/Things/Reminders)
- 问题/看板(GitHub/Linear/Jira)
- 文档/维基页面(Notion/Docs)
- 日历
- “在我脑海中”
你会允许哪个工具读取?
3. 对于一个从你的笔记/链接中建议行动的 AI,你最坚决的“拒绝”是什么?(选择 1-2 个)
- 隐私/数据保留
- 噪音建议/打扰
- 幻觉/错误建议
- 工作流程变更/迁移成本
- 定价
- 其他
嘿,HN!我上周参加了一个ATProto的聚会,作为一个对学术出版感到厌倦的半学术人士,我觉得有一个很酷的机会可以在Octopus(<a href="https://www.octopus.ac/" rel="nofollow">https://www.octopus.ac/</a>)的基础上进行开发,所以我在周末有点兴奋,构建了Octosphere。<p>希望你们中的一些人会觉得它有趣!博客文章在这里:<a href="https://andreasthinks.me/posts/octosphere/octosphere.html" rel="nofollow">https://andreasthinks.me/posts/octosphere/octosphere.html</a>
我编写了一种轻量级的脚本语言,可以与C语言一起运行。具体来说,它是一个C库,通过C函数调用来运行,并且可以回调你自己的C函数。编译后大小约为250KB。除了C标准库之外没有其他依赖。
主要语言特性:
* 使用别名而不是指针,因此内存安全
* 数组支持N维并且可调整大小
* 可以运行脚本或其自己的“shell”
* 错误捕获
* 方法、继承等
* 可定制的语法
我在过去几周一直在使用Clawdbot,确实觉得它很有用,但运行它让我感到非常紧张。<p>OpenClaw有52个以上的模块,并在一个Node进程中运行具有近乎无限权限的代理。NanoClaw的核心代码大约有500行,代理在实际的Apple容器中运行,并实现文件系统隔离。每个聊天都有自己的沙盒上下文。<p>这不是一把瑞士军刀。它是根据我的具体需求而构建的。你可以分叉它,做成你自己的版本。
嗨,HN,
我们刚刚在Flexprice中发布了Nomod集成。
为了提供一些背景,Flexprice是一个开源的账单系统,处理发票、使用情况和信用钱包。我们希望弥补的一个空白是支持特定地区的支付提供商,而不破坏账单状态。
通过这个集成:
- 在Flexprice中完成的发票可以同步到Nomod
- 为发票生成一个托管的Nomod支付链接
- 支付状态更新会反馈回Flexprice
- 发票和支付记录保持同步
- 只有在支付成功后,信用(如适用)才会被应用
这使得账单逻辑保持简单,避免了后期的对账问题。目前还没有演示,但文档已在这里上线: [https://docs.flexprice.io/integrations/nomod/](https://docs.flexprice.io/integrations/nomod/)
欢迎提问或分享反馈,特别是对于那些之前构建过账单或支付集成的人。如果您对此感兴趣,也欢迎加入我们的开源社区: [http://bit.ly/4huvkDm](http://bit.ly/4huvkDm)
在过去几周,世界模型首次开始显得真实。你可以看到连贯的环境、长时间的展开,以及越来越令人信服的视觉效果。同时,这些系统大多数难以运行,难以集成,并且在规模与交互性之间进行了权衡。
我们创立Overworld是因为我们更关注构建可以实际栖息的世界,而不是制作令人印象深刻的视频。这意味着低延迟、持续控制,以及每次你采取行动时系统都会做出响应,而不是每次只在提示时响应。
上周,我们发布了Waypoint 1,这是一个实时扩散世界模型的研究预览,能够在本地运行。下周,我们将发布Waypoint 1.1 Small,旨在能够在现代消费级GPU上运行,并且易于构建和修改。
Waypoint是从零开始构建的,而不是从大型视频模型微调而来。我们在控制频率、稀疏注意力和快速推理方面进行了大量优化,以便系统能够维持持久的世界状态,并以游戏级帧率响应输入。我们的目标是创造一些开发者今天就能集成的东西,而不仅仅是作为演示观看。
我们认为,一旦世界模型遵循类似于大型语言模型(LLMs)的路径:本地执行、开放工具和快速的社区驱动迭代,这个领域将会快速发展。Genie和类似系统展示了在大规模下的可能性。我们的重点是让这个未来变得本地化和可接触。
我们在最近的博客文章中详细讨论了“沉浸差距”,为什么交互性比单纯的视觉效果更重要,以及我们如何优化模型。
代码、演示和发布详情请访问:https://over.world/blog/the-immersion-gap
我已经是一个网络小说的读者多年了(在Royal Road上花了太多时间),我一直在思考一个问题:哪些大型语言模型(LLMs)真正能够创作出让人想要继续阅读的小说?这就是我创建Narrator的原因(<a href="https://narrator.sh/llm-leaderboard" rel="nofollow">https://narrator.sh/llm-leaderboard</a>)——一个让LLMs生成连载小说并根据真实读者的参与度进行排名的平台。
事实证明,这个问题的答案出乎意料地难以找到。创意写作并不是单一的能力,而是一个流程:头脑风暴 → 写作 → 记忆。你需要生成有趣的前提,用优美的文笔将其执行,并在长篇叙事中保持一致性。大多数基准测试都是孤立地测试这些能力,但读者体验的是一个整体。
当前的评估环境是支离破碎的:
像FictionLive的记忆基准测试使用选择题来检查模型是否能在长上下文中记住情节细节。这是有用的,但记忆只是良好小说所必需的条件,而不是充分条件。一个模型可能在回忆方面表现出色,但仍然写出无聊的故事。
来自Novelcrafter等工具的作者使用数据表明了作家们偏好的模型作为副驾驶。但这只衡量了人类与AI合作时的实用性,而不是产生引人入胜的独立作品。作者和读者的需求是不同的。
将LLM作为评判者是评估散文质量的最常见方法,但在创意作品中却 notoriously 不可靠。模型存在系统性偏见(偏好冗长的文风、某些结构),而“好写作”在某种程度上是主观的,这与“正确的代码”截然不同。
缺少的是一个从读者角度出发的定量基准——一种衡量真实人类是否真正享受这些模型所创作内容的工具。这正是Narrator所填补的空白:浏览量、阅读时间、评分、书签、评论、回访次数。可以把它看作是一个“AI Wattpad”,其中模型就是作者。
五个月前,我在这里分享了一个基于DSPy的早期版本(<a href="https://news.ycombinator.com/item?id=44903265">https://news.ycombinator.com/item?id=44903265</a>)。最大的教训是:一次性生成不适合长篇小说。模型会丢失情节线索、忘记角色,且章节之间的质量会下降。
重写:从一次性生成到持久的代理循环
当前版本通过一个写作工具对每个模型进行处理,保持章节之间的状态。在生成之前,代理会审查结构化的上下文:角色表、情节大纲、未解决的线索、世界构建笔记。在生成之后,它会更新这些文档以便于下一章使用。基本上,每个模型都获得一个贯穿整个故事的“作家笔记本”。
这带来了可衡量的差异——在一次性版本中挣扎的模型在获得自己笔记的情况下显著改善了一致性。
细粒度过滤而不是单一评分:
我们在前期对故事进行分类,包括语言、类型、标签和内容评级。我们不再只有一个“创意写作”排行榜,而是可以深入具体:哪个模型写的西班牙喜剧最好?哪个模型对男性主角的LitRPG故事处理得最好?哪个在浪漫与恐怖之间表现更佳?
答案并不总是符合你对一般基准的预期。有些模型在整体排名中处于中游,但在特定细分领域中却表现出色。
我为几个功能感到自豪:
故事分叉让读者可以以选择你自己的冒险(CYOA)的方式分支故事——如果你不喜欢情节的发展,可以分叉看看同一模型如何处理不同的情节。这创造了自然的A/B比较。
视觉化的LitRPG是我个人想要解决的问题。与其用一堆[STR: 15 → 16]的文本,不如将统计数据和技能树呈现为实际的用户界面元素。例如:<a href="https://narrator.sh/novel/beware-the-starter-pet/chapter/1" rel="nofollow">https://narrator.sh/novel/beware-the-starter-pet/chapter/1</a>
我在寻找的:
更多的读者来扩展参与数据。同时也想知道是否有其他人在进行长篇LLM生成时发现了更好的模式来保持章节之间的一致性——代理工具的方法有效,但我相信还有改进的空间。
嗨,HN,
我一直在开发一种名为 G 的编程语言。它旨在实现内存安全和极快的执行速度,并且注重小巧的占用空间。
整个解释器是用 D 语言编写的,大小仅为 2.4MB。我之所以构建它,是因为我想要一种现代的脚本语言,既轻量又具备高级语言的安全性。
主要特点:
```
小巧:二进制文件约 2.4MB。
快速:针对 x86_64 进行了优化。
安全:内存安全执行。
标准库:包含 std.echo、std.newline 等。
```
GitHub: https://github.com/pouyathe/glang
我非常希望能从社区获得一些关于语法或架构的反馈!
为了提高人工智能代理的效率,我们需要与真实系统建立反馈循环:部署、日志、配置、环境、仪表板。但在这一点上,问题就出现了。
大多数现代应用程序并没有细粒度的权限控制。具体例子:Vercel。如果我想让一个代理读取日志或检查环境变量,我必须给它一个令牌,这个令牌也允许它修改或删除内容。没有干净的只读或能力范围访问。
而这不仅仅是Vercel的问题。我在云仪表板、CI/CD系统和围绕可信人类设计的SaaS API中看到同样的模式,而这些系统并不是为自主代理设计的。
所以真正的问题是:今天人们在生产环境中是如何限制人工智能代理的?
你们是在构建强制执行政策的代理层吗?用白名单包装API?还是只是接受风险?
感觉我们正在尝试将自主系统连接到从未为其设计的基础设施上。
我很好奇其他人在实际设置中是如何处理这个问题的,而不是理论上的探讨。