返回首页
最新
八个月前,我看到一个朋友为他的跨境电商业务管理三面墙的手机——充电、切换IP、不断担心被封禁。我问自己:人们到底是想要这些设备,还是只是想要里面的安卓环境?
为了解答这个问题,我们开发了QCCBot。它在ARM服务器上运行完整的安卓实例,并通过浏览器进行流媒体传输。打开一个标签页,你就能获得一部手机。无需硬件、无需电缆,也不必为100台机器轮流充电。
现在我们有了真实的用户——跨境电商、TikTok运营、应用测试、远程工作。老实说,我们的用户在发现使用场景方面比我们更早。
我们接下来要构建的目标是:
能够不仅仅查看安卓环境的AI代理——它们能够在其中操作。打开应用、执行任务、监控状态、反馈结果。常规操作不再需要人工干预。
我们刚刚发布的基础设施部分包括:
• 任务执行API(OpenAPI)
• 脚本模板商店(约30个模板,选择行为并部署)
• 私有部署中的AgentV2
• 通过OpenClaw集成的基于ADB的代理控制
当前的真实限制:
• 流媒体延迟仍在改进中
• 指纹模拟并不完美
• 完全自主操作仍在构建中
• 当我们重新设计用户界面时,遭到了高级用户的批评(这很公平)
我们收集的挫折比功能还要多。现在还很早。但真实用户每天都在告诉我们哪些地方不好——这比赞美更有价值。
试试吧:qccbot.com
我很乐意深入探讨ARM虚拟化方法、代理控制层或流媒体架构。同时也真心希望了解是否有其他构建AI代理的人遇到过“需要持久的移动环境”的问题。
它不仅没有任何作用,还消耗了大量的代币。
嗨,HN——我开发了QuickSummarize,这是一个开源的Chrome扩展,用于通过字幕处理YouTube视频。
核心理念是将视频问答以转录文本为主,而不是将一次性总结视为全部记忆。
当前工作流程:
- 总结
- 基于转录文本的聊天
- 时间线浏览
- 字幕导出
它在Chrome侧边栏中运行,目前专注于YouTube。
我关注的一些实现选择:
- 转录文本是后续问题的主要依据
- 支持自带API,而不是另一个托管订阅
- 支持OpenAI兼容的API和Anthropic风格的API
- 英文/中文用户界面
虽然还处于早期阶段,但我觉得它比通常的一次性“总结这个视频”的流程更有用。
特别希望得到以下方面的反馈:
- 基于转录文本的聊天是否真的是合适的用户体验
- 人们如何看待长视频的记忆/检索
- 字幕可靠性边缘案例
为 Vue 3 构建了一个轻量级的 OTP 输入组件。<p>组合 API<p>自动聚焦 + 退格处理<p>完全可定制<p>小巧的包体<p>简单易用,设计上能够干净地处理常见的边缘情况。<p>代码库:<a href="https://github.com/pratik227/vue-otp-pro" rel="nofollow">https://github.com/pratik227/vue-otp-pro</a>