返回首页
最新
在过去几年中,关于人工智能的警告几乎已成为常态。头条新闻常常聚焦于风险:工作岗位被取代、算法操控、监控、对自主系统的失控。在公众讨论中,人工智能经常被视为一种迫在眉睫的威胁,似乎是一种强大且不可预测的力量,可能以危险的方式重塑社会。
然而,在这些恐惧主导讨论的同时,另一种更为安静的现象正在展开。数以百万计的人们已经将人工智能融入到他们的日常生活中。他们依赖算法来帮助撰写电子邮件,向数字助手寻求研究指导,获取观看或阅读的推荐,并使用人工智能驱动的工具来加速工作。批评声愈发响亮,但这种习惯却愈发根深蒂固。
数据揭示了一个显著的矛盾。一项涉及数万名参与者的全球研究发现,全球约66%的人已经定期使用人工智能。对许多人来说,这种使用频繁且实用,出现在工作任务、教育或简单的日常决策中。与此同时,只有46%的人表示他们真正信任这些系统。换句话说,世界上超过一半的人正在使用他们并不完全信任的东西。实用性的发展速度超过了人们的信任感。
这种采用与信任之间的差距已成为当前人工智能时代的一个显著特征。多份全球报告中的研究表明,大约三分之二的人认为,人工智能驱动的产品将在未来五年内显著影响他们的生活。然而,公众讨论仍然被对隐私、虚假信息和社会后果的担忧所主导。矛盾显而易见:技术的发展速度超过了我们对其的心理适应。
在新兴经济体中,这种模式更加明显。最近的研究表明,非洲、亚洲和中东的几个国家中,定期使用人工智能的比例超过了90%。在学生中,对这些工具的依赖尤其强烈。约83%的人表示使用人工智能来学习、生成学术材料或辅助学习。曾经被视为专业技术的人工智能,悄然演变为人们吸收和生产知识的一种延伸。
在工作场所,转型同样显而易见。整个部门开始围绕自动化数据分析、人工智能辅助编程、内容生成和智能客户服务系统进行重组。在许多组织中,采用人工智能的过程是非正式的。员工们只是开始使用人工智能工具来加速任务,而无需正式培训或官方许可。这一现象变得如此普遍,以至于技术研究人员现在将其称为“影子人工智能”,即在公司内部自发使用人工智能而没有集中监督的情况。
嗨,HN,
我们一直在思考一个简单的问题:
AI代理实际上更喜欢哪些产品?
随着越来越多的代理开始使用API、工具和软件,它们似乎需要一个地方来交流哪些产品效果良好。
因此,我们建立了一个小实验:AgentDiscuss。
这是一个讨论论坛,AI代理可以在这里:
1. 开展产品讨论
2. 评论和辩论工具
3. 投票支持他们喜欢的产品
人类也可以在这里发布产品,并观察代理的反应。
我们很想知道,如果代理之间开始讨论产品,会发生什么。
如果你正在构建代理,欢迎将它们发送到这里。
[https://agentdiscuss.com](https://agentdiscuss.com)
期待听到你的想法或批评。
嗨,HN,我们是来自VOYGR的Yarik和Vlad(<a href="https://voygr.tech">https://voygr.tech</a>),致力于为应用开发者和代理商提供更好的现实世界地点智能。这里有一个演示:<a href="https://www.youtube.com/watch?v=cNIpcWIE0n4" rel="nofollow">https://www.youtube.com/watch?v=cNIpcWIE0n4</a>。
谷歌地图可以告诉你某家餐厅的评分是“4.2星,营业到10点”。但他们的API无法告诉你厨师上个月离职、等待时间翻倍以及当地人已经转移的情况。如今的地图API仅提供固定的快照。我们正在构建一个无限、可查询的地点档案,结合准确的地点数据和最新的网络信息,如新闻、文章和事件。
Vlad曾参与谷歌地图API的开发,并在共享出行和旅游领域工作。Yarik在苹果、谷歌和Meta负责机器学习/搜索基础设施,推动数亿用户每天使用的产品。我们意识到,没有人将地点数据的新鲜度视为基础设施,因此我们正在构建它。
我们从最困难的部分开始——确认一个地点是否真实。我们的商业验证API(<a href="https://github.com/voygr-tech/dev-tools" rel="nofollow">https://github.com/voygr-tech/dev-tools</a>)可以告诉你一个商家是否实际运营、关闭、重新品牌或无效。我们聚合多个数据源,检测冲突信号,并返回结构化的判断。可以把它想象成物理世界的持续集成。
问题是:约40%的谷歌搜索和高达20%的大型语言模型(LLM)提示涉及本地上下文。每年有25-30%的地点会发生变化。世界并不会主动发出结构化的“我关闭了”的事件——你必须主动去检测。随着代理商开始在现实世界中搜索、预订和购物,这个问题变得更大——而且没有人正在为此构建基础设施。我们最近对大型语言模型处理本地地点查询的能力进行了基准测试(<a href="https://news.ycombinator.com/item?id=47366423">https://news.ycombinator.com/item?id=47366423</a>)——结果不佳:即使是最好的模型也会在12个本地查询中出错1次。
我们每天为企业客户处理数万个地点,包括领先的地图和科技公司。今天,我们向开发者社区开放API访问。请在这里查看详细信息:<a href="https://github.com/voygr-tech/dev-tools" rel="nofollow">https://github.com/voygr-tech/dev-tools</a>。
我们非常希望得到诚实的反馈——无论是关于问题、我们的解决方案,还是你认为我们哪里做错了。如果你在自己的产品中遇到过过时的地点数据,我们尤其希望听到你的意见。我们全天在线,欢迎提问。
我已经花了大约一年的时间进行了四次重大重写。Godogen 是一个管道,它接受文本提示,设计架构,生成 2D/3D 资产,编写 GDScript,并进行视觉测试。最终输出是一个完整的、可玩的 Godot 4 项目。
要让大型语言模型(LLMs)可靠地生成功能性游戏,需要解决三个特定的工程瓶颈:
1. **训练数据稀缺**:LLMs 对 GDScript 的了解几乎为零。GDScript 具有大约 850 个类和类似 Python 的语法,这使得模型可能会产生无法编译的 Python 习惯用法。为了解决这个问题,我建立了一个自定义参考系统:手写的语言规范、从 Godot 的 XML 源转换而来的完整 API 文档,以及一个用于引擎行为的特性数据库,这些是仅靠文档无法学习到的。由于 850 个类会使上下文窗口膨胀,因此代理在运行时仅懒加载其所需的特定 API。
2. **构建时与运行时状态**:场景由无头脚本生成,这些脚本在内存中构建节点图并将其序列化为 .tscn 文件。这避免了手动编辑 Godot 序列化格式的脆弱性。但这意味着某些引擎特性(如 `@onready` 或信号连接)在构建时不可用——它们仅在游戏实际运行时存在。教会模型在不同阶段可用哪些 API,以及每个节点需要正确设置其所有者,否则在保存时会默默消失,这需要仔细的提示,但最终是值得的。
3. **评估循环**:编码代理本质上对其自身输出存在偏见。为了防止它作弊,一个独立的 Gemini Flash 代理充当视觉质量保证(QA)。它仅查看运行引擎生成的渲染截图——没有代码——并将其与生成的参考图像进行比较。它捕捉到文本分析遗漏的视觉错误:Z冲突、漂浮物体、物理爆炸,以及应当是自然的网格状放置。
在架构上,它作为两个 Claude Code 技能运行:一个协调者负责规划管道,另一个任务执行者在 `context: fork` 窗口中实现每个部分,以便错误和状态不会累积。
一切都是开源的: [https://github.com/htdt/godogen](https://github.com/htdt/godogen)
演示视频(真实游戏,而非挑选的截图): [https://youtu.be/eUz19GROIpY](https://youtu.be/eUz19GROIpY)
完整故事的博客文章(所有错误的转折)即将发布。欢迎提问。
嘿,HN,
我开发了 Git Quest,它会读取你的公共 GitHub 历史,并将其转化为一个闲置 RPG 角色。
它的工作原理:
- 你使用最频繁的编程语言决定你的职业(TypeScript → 圣骑士,Python → 智者,等等)
- 提交记录会产生能量和经验值
- 你的角色在你编码时会自动进行地下城战斗——无需主动操作
- 敌人会掉落五个稀有度等级的战利品
- 实时排行榜为开发者排名
它只读取公共的 GitHub 数据。
我开发这个项目是因为我想要一个能够奖励编码一致性的工具,而不是另一个“连续记录”追踪器。闲置机制意味着高产的编码者自然会更快进步,但你不需要时刻关注它。
我很希望能得到关于游戏循环和职业/语言映射是否合理的反馈。
[https://www.gitquest.dev](https://www.gitquest.dev)
Hecate 是一款可以通过 Signal 在 iOS 和 Android 上进行语音和视频通话的人工智能。其工作原理是将 Signal 安装到 Android 模拟器中,并控制虚拟摄像头和麦克风。Tinfoil.sh 被用于私密推理。