2作者: xodn348大约 14 小时前原帖
我想构建一个能够自主购物的AI代理——你只需给它一张卡,它就能独立处理浏览、选择和支付。 我一直在开发一个MCP服务器,将AI代理与支付提供商(如Stripe、PayPal、虚拟卡)连接,但我不断遇到障碍: - 卡发行机构不会回应个人开发者 - Stripe要求离线支付必须使用3D安全认证 - 电子商务网站阻止浏览器自动化 - 亚马逊与Perplexity(3月9日)的案件确认,在主要平台上进行浏览器自动化存在真实的法律风险 与此同时,Visa宣布了“智能商务”,Mastercard推出了“代理支付”——这些网络已经预见到了这一趋势,但开发者工具尚未到位。 有没有人实际推出过类似的产品?具体的链接、有效的示例或建设性的反馈将特别有帮助。 - 你使用了什么支付渠道? - 这是一个可行的产品还是一个监管雷区? - 你会信任一个AI用500美元的预付卡为你购买东西吗? 我目前的进展:https://github.com/xodn348/clawpay
10作者: itsankur大约 14 小时前原帖
嘿,HN, 我和我的联合创始人对 CC 忽视我们的 Markdown 文件感到厌倦,因此我们花了 4 天时间开发了一个插件,能够根据我们之前的会话自动引导 CC。问题通常出现在计划模式之后。 我们尝试过的方式: - 大量使用计划模式(效果很好) - CLAUDE.md、AGENTS.md、MEMORY.md - 本地上下文文件夹(维护起来很麻烦) - 光标规则(针对光标) - claude-mem(开源)——实现会话连续性,但不进行引导 我们使用融合搜索来找到你的 CC 引导修正。 - 用户提示嵌入 + bm25 - 修正嵌入 + bm25 - 时间衰减 - 目标查询嵌入 - 排除项 - 元数据硬过滤器(例如文件) CC 插件: - 自动捕捉记忆/修正,无需你提醒 CC - 自动注入修正,无需你提醒 CC 去做 该插件会合并、更新并提炼你的记忆,然后在你每次提示后注入最相关的内容。 我们不确定是否只有我们在做这个。我们正在进行一些基准测试,以查看上下文注入在引导 CC 方面的实际效果,并且我们知道需要继续改进提取、搜索,并增加更多集成。 我们对为代理提供实时和个性化的上下文层充满热情。让代理理解你说的“这个”或“那个”的意思。将你世界的上下文带入一个安全、结构化、实时的层面,所有代理都可以访问。 希望能得到你们的反馈,关于你们如何让 CC 实际遵循你的 Markdown 文件,理解你的工作方式,关于插件的反馈,或任何其他关于实时记忆和上下文的内容。 - Ankur
3作者: Aamir21大约 14 小时前原帖
我一直在尝试一些有趣的东西。<p>AI 编码工具能够非常快速地生成代码,但几乎从未生成完整的端到端测试覆盖率。它们创建了大量的测试,主要是单元测试和集成测试,但缺少真实用户场景。在我们查看的许多代码库中,一旦团队开始使用 Copilot 风格的工具,新代码与少量高质量的端到端测试的比例急剧下降,或者这些工作被留给测试人员作为单独的任务。<p>因此,我尝试了一种不同的方法。<p>该系统读取拉取请求并:<p>• 分析更改的文件 • 识别未覆盖的逻辑路径 - 使用依赖图(单个代码库或多个代码库) • 通过用户故事或需求理解上下文(作为 PR 中的评论提供) • 生成测试场景 • 产生与 PR 关联的端到端自动化测试<p>此外,如果用户能够连接到他们的内容管理系统(CMS)或翻译管理系统(TMS),那么这些信息也可以被拉入。(我内部使用的是 graphRAG,但那是另一个话题)<p>示例工作流程:<p>1. 提交一个拉取请求 2. 系统读取差异 + 关联的 Jira 票据 3. 生成缺失的测试和覆盖率报告<p>在早期实验中,该系统始终能够发现开发人员遗漏的边缘案例。<p>示例输出:<p>代码引用 | 需求 ID | 需求/验收标准 | 测试类型 | 测试 ID | 测试描述 | 状态 src/api/auth.js:45-78 | GITHUB-234 / JIRA-API-102 | API 应该对无效令牌返回 400 | 集成 | IT-01 | 验证无效令牌的响应 | 通过<p>我很好奇其他人如何看待这种可追溯性。我也是一名开发人员,因此我很敏感,只向开发人员展示这些信息,只有开发人员才能将其展示给其他人,否则他可以直接采取纠正措施。
2作者: raphaelmansuy大约 14 小时前原帖
我开发了一款 macOS 语音听写应用,确保您的机器上不会有任何音频数据外泄。<p>EdgeWhisper 在 Apple Silicon 上通过 MLX 框架本地运行 Voxtral Mini 4B 实时模型(Mistral AI,Apache 2.0)。按住一个键,说话,然后松开——文本会出现在您当前聚焦的应用程序中的光标位置。<p>架构: - 原生 Swift(SwiftUI + AppKit)。不使用 Electron。 - 通过 MLX 在神经引擎上进行 Voxtral 4B 推理。模型大小约为 3GB,在 M1 及以上设备上运行时占用约 2GB 内存。 - 双重文本注入:使用 AXUIElement(保留撤销栈)和 NSPasteboard+CGEvent 作为后备。 - 六阶段后处理管道:去除填充词 → 字典 → 片段 → 标点 → 大写 → 格式化。 - 滑动窗口 KV 缓存,实现无限流媒体传输而不降低延迟。 - 可配置的转录延迟(240ms–2.4s),最佳设置为 480ms。<p>它的优势: - 在 20 多种终端/集成开发环境(VS Code、Xcode、iTerm2、Warp、JetBrains)中均可使用。大多数听写工具在终端中无法正常工作——我们能够检测到并切换注入策略。 - 自动去除填充词(“呃”、“啊”、“像”)。 - 支持 13 种语言并具备自动检测功能。 - 个人字典 + 片段扩展,支持变量({{date}}、{{clipboard}})。 - 在下载模型后完全离线工作。无需账户,无需遥测,无需分析。<p>尚未实现的功能(未来会有): - 不支持文件/会议转录(即将推出) - 不支持翻译(即将推出) - 不支持 Linux/Windows(仅限 macOS,需 Apple Silicon)<p>定价:免费套餐(每天 5 分钟,无需账户)。专业版每月 7.99 美元或每年 79.99 美元。<p>我希望能得到以下反馈: 1. 本地 LLM 后处理(例如,通过 MLX 的 Phi-4-mini)用于语法/语调是否值得额外占用约 1GB 内存? 2. 对于使用语音转代码工作流程的开发者:您希望将什么上下文传递给您的编辑器? 3. 还有其他人在基于 Voxtral Realtime 开发吗?想了解您与因果音频编码器的使用体验。