八个月前,我看到一个朋友为他的跨境电商业务管理三面墙的手机——充电、切换IP、不断担心被封禁。我问自己:人们到底是想要这些设备,还是只是想要里面的安卓环境?
为了解答这个问题,我们开发了QCCBot。它在ARM服务器上运行完整的安卓实例,并通过浏览器进行流媒体传输。打开一个标签页,你就能获得一部手机。无需硬件、无需电缆,也不必为100台机器轮流充电。
现在我们有了真实的用户——跨境电商、TikTok运营、应用测试、远程工作。老实说,我们的用户在发现使用场景方面比我们更早。
我们接下来要构建的目标是:
能够不仅仅查看安卓环境的AI代理——它们能够在其中操作。打开应用、执行任务、监控状态、反馈结果。常规操作不再需要人工干预。
我们刚刚发布的基础设施部分包括:
• 任务执行API(OpenAPI)
• 脚本模板商店(约30个模板,选择行为并部署)
• 私有部署中的AgentV2
• 通过OpenClaw集成的基于ADB的代理控制
当前的真实限制:
• 流媒体延迟仍在改进中
• 指纹模拟并不完美
• 完全自主操作仍在构建中
• 当我们重新设计用户界面时,遭到了高级用户的批评(这很公平)
我们收集的挫折比功能还要多。现在还很早。但真实用户每天都在告诉我们哪些地方不好——这比赞美更有价值。
试试吧:qccbot.com
我很乐意深入探讨ARM虚拟化方法、代理控制层或流媒体架构。同时也真心希望了解是否有其他构建AI代理的人遇到过“需要持久的移动环境”的问题。
返回首页
一周热榜
这正迅速成为新的 xkcd 放松心情的梗。
嗨,HN!我们是Aakash和Viswesh,我们正在构建Canary(<a href="https://www.runcanary.ai">https://www.runcanary.ai</a>)。我们开发的AI代理可以读取你的代码库,识别拉取请求(PR)实际更改了什么,并为每个受影响的用户工作流程生成并执行测试。
Aakash和我之前在Windsurf、Cognition和Google开发过AI编码工具。AI工具使每个团队在交付上变得更快,但在合并之前,没有人测试真实用户的行为。PR变得越来越大,审查仍然是在文件差异中进行的,而看似干净的更改在生产环境中却导致了结账、身份验证和计费等问题。我们亲眼目睹了这一切。我们创建Canary就是为了填补这个空白。以下是它的工作原理:
Canary首先连接到你的代码库,并理解你的应用是如何构建的:路由、控制器、验证逻辑。你推送一个PR,Canary读取差异,理解更改背后的意图,然后生成并在你的预览应用上运行测试,检查真实用户的完整流程。它会直接在PR上发表评论,提供测试结果和录屏,展示更改内容,并标记任何不符合预期行为的部分。你还可以通过PR评论触发特定的用户工作流程测试。
除了PR测试外,从PR生成的测试可以移入回归测试套件。你也可以通过简单的英文提示创建测试。Canary会从你的代码库生成完整的测试套件,安排并持续运行它。我们的一个建筑科技客户在发票流程中发现应付金额与原始提案总额偏差了约1600美元。Canary在发布之前捕捉到了他们发票流程中的回归问题。
这并不是单一的基础模型能够独立完成的任务。质量保证(QA)涉及多个模态,如源代码、DOM/ARIA、设备模拟器、视觉验证、分析屏幕录制、网络/控制台日志、实时浏览器状态等,任何单一模型都难以专注于这些。你还需要定制的浏览器集群、用户会话、临时环境、设备农场和数据预置,以可靠地运行测试。此外,捕捉代码更改的二次效应需要一个专门的工具,以多种可能的方式破坏应用程序,而普通的顺利路径测试流程无法做到这一点。
为了衡量我们专门构建的QA代理的效果,我们发布了QA-Bench v0,这是第一个代码验证基准。给定一个真实的PR,AI模型能否识别每个受影响的用户工作流程并生成相关测试?我们将我们的专用QA代理与GPT 5.4、Claude Code(Opus 4.6)和Sonnet 4.6进行了测试,涵盖了Grafana、Mattermost、Cal.com和Apache Superset上的35个真实PR,从相关性、覆盖率和一致性三个维度进行评估。覆盖率是差距最大的地方。Canary在覆盖率上领先GPT 5.4 11分,领先Claude Code 18分,领先Sonnet 4.6 26分。有关完整的方法论和每个代码库的详细分析,请阅读我们的基准报告:<a href="https://www.runcanary.ai/blog/qa-bench-v0">https://www.runcanary.ai/blog/qa-bench-v0</a>
你可以在这里查看产品演示:<a href="https://youtu.be/NeD9g1do_BU" rel="nofollow">https://youtu.be/NeD9g1do_BU</a>
我们非常希望听到任何在代码验证方面工作或考虑如何以不同方式衡量此事的人的反馈。
我偶然看到一篇来自shannoncc的帖子,标题是“我60岁了。Claude Code重新点燃了我的热情”,这让我深思。我也快60岁了,但人工智能却让我失去了热情。我记得在人工智能出现之前的日子,那时我白天、晚上、周末和假期都在享受编程的乐趣。而现在,这种乐趣不复存在,而其他人却重新找到了他们的“热情”。
我认为这取决于你喜欢什么:旅程还是目的地。我一直以来都享受旅程,而我觉得现在那些乐在其中的人是在享受目的地。人工智能给了我们更多的目的地,但旅程却少了。这并不是好或坏,只是不同而已。
《量子联盟》是大卫·L·迪劳拉创作的一部硬科幻小说(包括Kindle版、Kindle Unlimited和精装本),于一月发布。<p>深空网络探测到旅行者1号减速、停下并返回。某种东西找到了旅行者1号,并将其带回地球。在返回的旅程中,旅行者的下行链路中包含了一张来自金唱片的图像。这是一种警告。<p>随后,第二条消息出现:旅行者携带着一个旨在传递给地球的人工制品。这是一种能够与星星进行量子测量基础上的沟通方式。唯一能够使用它的实体是ORIN,地球的量子人工智能,它成为了人类的使者。<p>这本书在工程现实主义方面表现得非常突出:深空网络的节奏和光延迟、任务操作的限制、仪器的局限性等,并将“首次接触”视为一种工程和本体事件,而非冒险故事。它还探讨了生物和非生物意识,以及全球对行星级威胁的反应。<p>这不是太空歌剧,而是为喜欢《安德罗梅达病株》或《与拉玛相会》的读者而写的硬科幻小说,期待并欢迎一定的技术深度,并愿意思考我们自身思维的本质。
我是鲁弗斯,Flowershow的创始人之一。我们热爱Markdown,并在网站、文档和知识库等各个地方使用它。此外,现在AI也在各处应用Markdown。
我们厌倦了每次想分享文件或将网站上线时所需的框架、配置和部署的繁琐过程。因此,我们构建了我们想要的工具:文件输入,网站输出。我们的愿景是“内容的Vercel”——让部署(Markdown)内容变得像Vercel为JavaScript所做的那样快速、无缝和简单。
通过命令行,你可以连接到GitHub仓库,使用Obsidian插件,或者拖放文件。
```
npm i -g @flowershow/publish
publish ./my-notes
# → https://your-site.flowershow.app 几秒钟内上线
```
Flowershow是**完全托管**的——无需服务器、构建管道或持续集成/持续部署。只需指向一个Markdown文件夹,即可获得一个URL。
支持完整的Obsidian语法:维基链接、提示框、图表视图、前置信息。
GFM、Mermaid、LaTeX:图表和数学公式原生渲染。
通过Tailwind和CSS变量实现主题:开箱即用的Tailwind。可在不需要构建步骤的情况下进行自定义。
支持HTML:使用HTML、图片等。
目前约有7000个Obsidian插件安装,1400名用户,1100个网站。个人使用永久免费。高级版($5/月)提供自定义域名、搜索和密码保护。
而且它是开源的:[https://github.com/flowershow/flowershow](https://github.com/flowershow/flowershow)
快来试试吧,告诉我们你的想法以及我们可以改进的地方。
我创建Pano是因为我总是找不到我真正想要回来的东西。
Pano是一个互联网归档工具,可以让你将链接保存到可以组织和分享的“书架”中。
对我来说,问题从来不是找不到东西,而是如何保存它们。研究论文、食谱、旧博客文章、代码库、教程,以及我在深夜偶然发现的随机网站,最终都会散落在标签页、书签、截图、保存的帖子和PDF文件中。几周后,它们就几乎消失了。
我想要的是一个地方,保存的链接能够保持有序,易于浏览,并且可以作为一个集合轻松分享。
大部分工作集中在两个方面:元数据提取和界面设计。如果保存的链接变成没有标签的书签,它们的价值就大大降低了,因此Pano尝试提取结构化信息,比如标题、描述、作者、日期和类型,同时对YouTube、GitHub、Reddit、Substack、Spotify等网站进行本地处理。我还花了很多时间在设计上,因为我希望保存的链接能够让人感到可浏览,值得回访;更像是一个书架,而不是一个实用的URL列表。
此外,还有一个Chrome扩展,可以实现一键保存,以及一个用于导入现有书签的批量导入路径。
我特别感兴趣的是“书架”模型是否比传统书签更好,以及在保存/组织/分享的流程中,哪些地方仍然感觉笨拙。
现在是免费的:panoit.com
我们的初创公司(Qcart)目前在多个国家面临100%的生产停滞。18小时前,由于暴露的CircleCI访问密钥,AWS信任与安全团队限制了我们的账户。
时间线:
18小时前:收到关于密钥暴露的通知(与一个circleci-eb用户相关)。
我们删除了IAM用户及所有关联的密钥,并在支持案例中确认了修复情况。
当前状态:完全没有回应。支持人员不断表示“专业团队正在调查”,但在我们的业务濒临崩溃的情况下,我们没有收到任何更新。
我们已经更换了所有凭证,并确认没有其他未经授权的访问。我们是一个小团队,这18小时没有来自安全团队的人工回应的延迟对我们来说是毁灭性的。
请问AWS的工作人员有没有建议,如何才能让人类实际审查已解决的安全问题?
案例ID:177385077300217
任何帮助或信息都将不胜感激。
我认识的大多数开发者都转向了 Cursor 或 Codex。不过我还是时不时看到有人提到 Windsurf。
我理解为什么有人会继续使用它——JetBrains 的支持、稍微便宜一些、在大型代码库上表现不错。但在 Cognition 收购之后,我不太确定它的未来。
所以我真的很好奇,你还在使用 Windsurf 吗?是什么让你继续使用它?有没有什么让你后悔没有换的事情?
作为一个实验,我开始让Claude用虚构故事来向我解释事物,结果效果非常好。因此,我开始探索这个方法的极限,以及需要什么才能将其打磨到足以公开分享的程度。<p>在过去的几个月里,我为这个项目构建了世界观手册、撰写了视觉风格指南以及其他相关文档……可以把它们想象成我们现在用于代理开发的所有Markdown文件的虚构等价物。在此之后,我又花了大约两周的时间进行额外的打磨工作,以去除许多冗余内容和LLM特有的表达方式。如果有人对此过程感兴趣,我也很乐意回答任何问题。
他们的DNS解析已经严重下降超过2小时,影响了网站的正常访问,现在他们的状态页面也在随机崩溃。
https://status.godaddy.com
我对在大型语言模型(LLM)时代,科技行业的人们是如何避免技能退化的很感兴趣。
我们都看到了这个争论的两种观点,一方面是“让他们退化,LLM是未来,看看算盘就知道了!”另一方面是“我不使用LLM,它们会出错并且妨碍工作”。但对许多人来说,现实是LLM确实提供了真正的性能提升,并承担了许多任务,即使它们会出错并需要人们的监督。
我倾向于谨慎对待技能的退化,因为在中长期内,LLM将如何影响工作场所以及哪些技能会被使用仍有太多未知。因此,我想知道你们是如何在面对“让它实现”的诱惑时,保持现有技能不退化的?