返回首页

24小时热榜

9作者: omarisbuilding大约 9 小时前原帖
你好, 我创建TalkBits是因为大多数语言学习应用程序都专注于词汇或练习,而不是实际的对话。学习一门语言最困难的部分是能够在压力下自然地说话。 TalkBits让你能够与一个像母语者一样的人工智能进行实时口语对话。你可以选择不同的场景(旅行、日常生活、工作等),自然地说话,人工智能会用自然的语言回应你。 我们的目标是让对话的感觉更像是在与真实的人交流,而不是在上课。 在技术方面,它使用实时语音输入、转录、大型语言模型(LLM)响应和文本转语音(TTS)流媒体,以保持低延迟,使对话感觉流畅。 我特别希望得到以下方面的反馈: – 这感觉自然吗? – 在哪里打断了沉浸感? – 什么会让你定期使用这个应用? 也很乐意回答技术问题。 谢谢!
6作者: lcastricato大约 14 小时前原帖
在过去几周,世界模型首次开始显得真实。你可以看到连贯的环境、长时间的展开,以及越来越令人信服的视觉效果。同时,这些系统大多数难以运行,难以集成,并且在规模与交互性之间进行了权衡。 我们创立Overworld是因为我们更关注构建可以实际栖息的世界,而不是制作令人印象深刻的视频。这意味着低延迟、持续控制,以及每次你采取行动时系统都会做出响应,而不是每次只在提示时响应。 上周,我们发布了Waypoint 1,这是一个实时扩散世界模型的研究预览,能够在本地运行。下周,我们将发布Waypoint 1.1 Small,旨在能够在现代消费级GPU上运行,并且易于构建和修改。 Waypoint是从零开始构建的,而不是从大型视频模型微调而来。我们在控制频率、稀疏注意力和快速推理方面进行了大量优化,以便系统能够维持持久的世界状态,并以游戏级帧率响应输入。我们的目标是创造一些开发者今天就能集成的东西,而不仅仅是作为演示观看。 我们认为,一旦世界模型遵循类似于大型语言模型(LLMs)的路径:本地执行、开放工具和快速的社区驱动迭代,这个领域将会快速发展。Genie和类似系统展示了在大规模下的可能性。我们的重点是让这个未来变得本地化和可接触。 我们在最近的博客文章中详细讨论了“沉浸差距”,为什么交互性比单纯的视觉效果更重要,以及我们如何优化模型。 代码、演示和发布详情请访问:https://over.world/blog/the-immersion-gap
6作者: item007大约 15 小时前原帖
嗨,HN——我正在探索一个想法,希望能得到你们的反馈。 我是一名 Obsidian 的构建者和用户,正在验证一个名为“关注点”的概念。目前这只是一个登陆页面和简短的调查(还没有产品),目的是测试这个痛点是否真实存在。 核心想法(2-3 个要点): - 我们中的许多人捕捉了大量有用的信息(笔记/链接/文档),但这些信息很少转化为实际的工作成果。 - 我并不是在寻找更好的“组织方式”(标签/文件夹),而是在探索一个“行动引擎”,它能够: 1. 检测你正在积极关注/工作的内容(“活跃项目”) 2. 在合适的时刻呈现相关的已保存材料 3. 提出具体的下一步行动(理想情况下推送到你现有的任务工具中) 我自己的“第二大脑”变成了良好意图的墓地:组织的成本高于我获得的价值。我正在尝试验证真正的瓶颈是执行,而不是信息捕捉。 在编写代码之前,我想明确两件事情: - 项目上下文信号(代码库/拉取请求?问题?任务?日历?“项目文档”?) - 如何闭环:获取知识 → 针对活跃项目进行排名 → 将一小组下一步行动输出到现有的待办工具中 → 从结果中学习(完成/被忽略/编辑),并可选择写回最小状态。开放性问题是:在不产生噪音或隐私风险的情况下,最干净的反馈信号是什么?(显式评分 vs 完成事件 vs 基于文档的写回) 我想向你们询问: 1. 你的“第二大脑”在哪个环节最容易崩溃? 捕捉 / 组织 / 检索 / 执行 (如果可以,请分享一个具体的近期例子。) 2. 今天对你来说,什么最能代表“活跃项目上下文”? - 任务项目(Todoist/Things/Reminders) - 问题/看板(GitHub/Linear/Jira) - 文档/维基页面(Notion/Docs) - 日历 - “在我脑海中” 你会允许哪个工具读取? 3. 对于一个从你的笔记/链接中建议行动的 AI,你最坚决的“拒绝”是什么?(选择 1-2 个) - 隐私/数据保留 - 噪音建议/打扰 - 幻觉/错误建议 - 工作流程变更/迁移成本 - 定价 - 其他
6作者: briancr大约 20 小时前原帖
我编写了一种轻量级的脚本语言,可以与C语言一起运行。具体来说,它是一个C库,通过C函数调用来运行,并且可以回调你自己的C函数。编译后大小约为250KB。除了C标准库之外没有其他依赖。 主要语言特性: * 使用别名而不是指针,因此内存安全 * 数组支持N维并且可调整大小 * 可以运行脚本或其自己的“shell” * 错误捕获 * 方法、继承等 * 可定制的语法
5作者: cadabrabra大约 14 小时前原帖
我无法列举出任何一个由人工智能提出的软件应用或软件功能。一个都没有。以Excel为例,人工智能不仅没有完全取代Excel,还未能替代其任何功能。人工智能仅仅作为一种附加功能以智能聊天机器人的形式被添加进来。这种趋势在整个行业中普遍存在,这也是为什么人工智能未能从根本上改变我们现有软件应用的原因。 现在你可能会问:那人工智能原生应用呢?事实证明,它们大多数本质上是现有软件的克隆,只是在上面加了一个聊天机器人。由于人工智能本身容易出错,任何利用它的应用程序都必须提供所有必要的控制选项,以便覆盖其所有决策。因此,你最终得到的是一个传统软件应用加上人工智能。 人工智能曾承诺要转变甚至取代软件应用,但它所做的只是用一个不可靠的聊天机器人来增强这些应用。所有旧的字段和按钮仍然存在,但现在多了一个可以输入文本的字段,希望能有所作为。
5作者: souvik1997大约 17 小时前原帖
用于安全运行LLM生成代码的WASM沙箱。<p>代理拥有类似bash的命令行界面,只能调用您提供的工具,并遵循您定义的限制。没有Docker,没有子进程,没有SaaS——只需通过pip安装amla-sandbox。
4作者: eigenvalue大约 2 小时前原帖
几个月前,我出于兴趣开始对生物学和遗传学产生了浓厚的兴趣。这在很大程度上受到了悉尼·布伦纳(Sydney Brenner)工作的启发,这也成为了我 brennerbot.org 项目的基础。 特别是,我对噬菌体(phages)产生了极大的兴趣,它们是攻击细菌的病毒。噬菌体是生物学中最接近“基本粒子”的东西:它们是能够进行有用功能的最小遗传代码单元,使得它们能够繁殖和传播。 它们还具有一些令人惊叹的特性,比如其结构以某种方式编码了一个二十面体。我一直在想,这些东西的 DNA 如何在物理世界中转化为几何形状。ACGT 的“数字”领域与 20 种氨基酸以三为一组的映射,以及与三维、模拟形状的世界之间的这种映射,对我来说依然显得神奇而神秘。 我想更深入地研究这个主题,但不想通过阅读无聊的教科书。我希望以一种具体的方式了解这些噬菌体。不同类型的噬菌体有哪些?它们在遗传代码的长度和结构上如何比较?它们所呈现的物理结构又是怎样的? 于是我决定制作一个程序,以互动的方式探索这些内容。 因此,我很高兴向大家介绍我的开源项目——噬菌体探索者(Phage Explorer): phage-explorer.org 我可能有些过于投入,因为最终的成果生成了大量的代码,导致大约 15 万行的 TypeScript 和 Rust/Wasm。它实现了 23 种分析算法,超过 40 种可视化,并包含 24 种不同类型噬菌体的完整遗传数据和三维结构。 实际上,为了让这个程序在浏览器中良好运行,我投入了大量的工程工作;这是一笔惊人的数据量(当你查看一些三维结构模型时,这一点会变得显而易见)。 在移动设备上运行得相当不错,但如果你想获得完整的体验,我强烈建议在高分辨率的桌面浏览器中打开它。 据我所知,这是目前任何地方关于噬菌体的最完整的信息/教育软件。现在,我首先要承认,我并不是专家,甚至对这些内容了解得并不多。 所以,如果你是一位生物学专家,请看看我所制作的内容,并告诉我你的看法!如果我有任何错误,请在 GitHub 问题中告诉我,我会进行修正: <a href="https://github.com/Dicklesworthstone/phage_explorer" rel="nofollow">https://github.com/Dicklesworthstone/phage_explorer</a>
4作者: AIFairy大约 11 小时前原帖
关于“人工智能泡沫”破裂的无休止讨论,主要集中在ChatGPT的订阅或企业API调用是否能产生足够的收入,以证明数万亿的炒作是合理的。但这完全忽视了关键问题。 即使明天每个前沿实验室,包括OpenAI、Anthropic、xAI、Google DeepMind,突然都没有付费客户,推动所谓“人工智能革命”的金融机制仍会继续运转,基本保持不变。 原因如下: 核心机制并不是依靠当前的产品收入,而是对未来在计算能力、能源、数据和地缘政治定位的巨大平行投资。真正的资金流向如下: 超大规模云服务商(如微软、亚马逊、谷歌、Meta等)每年在数据中心、GPU和电力基础设施上投入数千亿美元,这并不是因为他们的人工智能功能今天能带来现金流(大多数尚未盈利),而是因为他们无法在基础设施军备竞赛中落后。如果某个参与者控制了全球最高质量计算能力的大部分,他们就会赢得分发、人才、数据优势,以及对未来突破的选择权。这是一种强化版的防御性资本支出:要么建设,要么永远被锁在外面。 Nvidia和芯片生态系统处于中间地带,无论最终用户是否为更好的聊天服务支付每月20美元,他们都在收取巨额利润。需求来自于基础设施的建设,超大规模云服务商需要硬件来以惊人的规模进行训练和推理。即使某些设施的当前利用率较低,订单仍在不断涌入,因为没有人想在2028年向董事会解释,为什么在其他人都获得足够的H200时,他们却没有。 地缘政治和国家安全进一步推动了这一切。各国政府(尤其是美国及其盟友)将前沿人工智能计算视为与核技术或能源电网同等重要的战略基础设施。主权人工智能倡议、大规模合作(如Stargate)和出口控制等都在同一循环中发挥作用:现在投资,否则就面临永久的二流地位。尽管受到限制,中国的加速发展只会加剧这一竞争。 估值机制和循环资本使得这一飞轮不断转动。实验室以高估值融资,承诺提供AGI/ASI的选择权(对改变世界技术的看涨期权),超大规模云服务商通过“人工智能顺风”来证明资本支出是合理的,Nvidia在资本支出浪潮中赚取利润,投资者则将收益回流到生态系统中。这一过程在很大程度上是自我强化的,而这一点不会因为“ChatGPT Plus订阅不够”而改变。只有当资本成本飙升、电网达到硬限制,或地缘政治冲击重置优先事项时,情况才会改变。 “人工智能泡沫”关乎谁最终拥有21世纪的数字石油平台、庞大的计算集群、能源合同和人才库。这些投资是基于生存选择价值和战略必要性,而不是季度SaaS年经常性收入。许多人工智能产品可能会永远保持高度补贴或低利润。许多初创公司将会倒闭。估值将会修正(剧烈)。但对计算基础设施的资本涌入仍将持续,直到物理、地缘政治或利率另有说法,而不是因为有人取消了他们的20美元订阅。
4作者: gorfian_robot大约 14 小时前原帖
我今天再次看到提到ICElist,所以我想再试着访问一下(最初由于流量过大而无法访问)。 它是一个媒体维基网站(太棒了!)。但是我想看看它实际包含哪些信息,以及我如何能从远处进行贡献。 我从代理人页面开始。此时维基上有1574名代理人,我随机选择了大约十个进行点击。每一个页面上除了一个链接到该人的LinkedIn个人资料外,几乎没有其他信息,显然是他们自我认同的地方。可以理解,但并不算特别有趣。许多代理人确实有一些不寻常的名字,这使得在网上挖掘更多细节成为可能。 事件部分更有趣。有377个事件,包含合理的细节和描述。确实是一个值得跟踪的好东西,因为这些事件很容易被遗忘或忽视。 未识别页面也有些有趣,因为它们包含大约50名未识别代理人的照片,但关于事件甚至地点的信息并不完整。有些甚至不明显是代理人,这让我对某些提交的内容产生了质疑。 车辆部分的数据可能是最完整的,因为有1142辆车辆的车牌号码。通过更新ICElist上观察到的事件中的车牌信息,是提供有价值信息的一种低风险方式。特别是如果ICE涉及换牌,这种行为是非法的。 抵制部分也很有趣,因为它包含了各种公司如何支持ICE的具体信息。虽然个人很难或几乎不可能通过抵制产生影响,甚至记住所有那些卑鄙公司的名字,但在你即将签订商业协议时,检查一下这些信息是很有用的。 还有其他人浏览过这个网站并有一些想法吗?