1作者: jordanappsite3 个月前原帖
嗨,HN,我是Ty。我创建LUCID是因为我不断地发布由我的AI编码助手虚构出来的错误。 三篇独立的论文证明了大型语言模型(LLM)产生幻觉在数学上是不可避免的(Xu等,2024年;Banerjee等,2024年;Karpowicz,2025年)。你无法通过训练来消除它,也无法通过提示来避免它。因此,我建立了一个验证层。 它是如何工作的:LUCID从AI生成的代码中提取隐含的声明(例如,“这个函数处理空输入”,“这个查询是安全的防注入”,“这个处理并发访问”),然后使用第二个对抗性的AI过程来验证每个声明与实际实现的一致性。你会得到一份报告,显示如果没有验证,实际会发布到生产环境的内容。 “但是验证者也会产生幻觉吗?”是的——这是一个正确的问题。下面的基准测试是通过运行真实的测试套件来验证的,而不是依赖LUCID的判断。其价值在于结构化的声明提取加上对抗性验证可以捕捉到单次生成过程中遗漏的错误。该架构还支持根据声明类型在成熟时将LLM验证替换为形式化方法(如SMT求解器、基于属性的测试)。 基准测试: - HumanEval:基线86.6% -> 使用LUCID时100%通过@5(164/164个问题) - SWE-bench:基线18.3% -> 使用LUCID时30.3%(+65.5%) - 这两个基准测试是通过运行实际测试套件来验证的,而不是依赖LLM的判断 - LLM作为评判者在较高的k值下表现实际上更差——它会产生假阳性 使用方式有三种: 1. MCP服务器(Claude Code、Cursor、Windsurf)——只需一行配置,将验证作为原生工具 2. GitHub Action——在每个PR上自动验证并提供内联评论 3. CLI——npx lucid verify --repo /path/to/code 免费套餐:每月100次验证。请在 [https://trylucid.dev](https://trylucid.dev) 获取密钥。 代码:[https://github.com/gtsbahamas/hallucination-reversing-system](https://github.com/gtsbahamas/hallucination-reversing-system) 论文:[https://doi.org/10.5281/zenodo.18522644](https://doi.org/10.5281/zenodo.18522644) 仪表盘:[https://trylucid.dev](https://trylucid.dev)
1作者: tanmay0013 个月前原帖
大多数“AI + 浏览器”的设置仍然是将MCP工具附加到Playwright上,然后寄希望于最好的结果,因此每次点击都会将完整的DOM、可访问性树和日志导入模型。这会消耗大量令牌,导致上下文崩溃,使得长时间的会话变得不可靠。同时,当端到端测试超过几十个时,默认的Playwright报告开始变得困难,因此团队在HTML报告和不稳定的失败中淹没,而无法识别清晰的模式。位于https://testdino.com/blog/playwright-cli/的见解探讨了微软的playwright-cli如何将浏览器状态保持在外部,仅返回紧凑的元素引用和YAML流,并与普通的npx playwright test配合使用,加上更智能的报告,从而使代理和人类都能保持快速、成本意识和可预测性。
1作者: browndev3 个月前原帖
我构建了一个API,它接受产品名称,从YouTube和Reddit抓取评论,并以单个JSON响应返回结构化的情感分析。实时演示(无需注册):<a href="https:&#x2F;&#x2F;reviewstack.vercel.app&#x2F;demo" rel="nofollow">https:&#x2F;&#x2F;reviewstack.vercel.app&#x2F;demo</a> <p>响应内容包括一个标准化评分(1-10)、一段纯文本摘要、优缺点列表、带有情感的重复主题,以及指向原始内容的来源引用。</p> <p>AI层使用的是Anthropic的Claude。它读取收集到的评论并提取结构化数据。其价值在于无需维护抓取基础设施、处理跨平台的速率限制,或编写自己的数据提取提示。</p> <p>技术栈:Next.js API路由、Vercel用于托管、Stripe用于计费、YouTube数据API + Reddit JSON端点用于数据来源、Claude用于分析。</p> <p>定价:免费套餐每月50次查询,付费计划为每月29美元(500次查询)和每月79美元(2000次查询)。这是一个个人/自筹资金的项目。</p> <p>欢迎就抓取方法、准确性或其他任何问题进行咨询。</p>
2作者: mickamy3 个月前原帖
sql-tap 是一个透明代理,通过解析 PostgreSQL/MySQL 的网络协议来捕获 SQL 查询,并在终端用户界面中显示这些查询。您可以对任何捕获的查询运行 EXPLAIN。无需更改应用程序代码,只需更改端口即可。
3作者: melendezgg3 个月前原帖
嗨,HN,我创建了MicroVibe,这是一个小型网页启动器,适合那些希望使用JSX、基于文件的路由和API路由,但又不想引入重型框架的人。 目前的功能包括: - 基于文件的路由(包括动态路由和捕获所有段) - 具有一致JSON错误格式的API路由 - 默认支持服务器端渲染(SSR),并在需要交互时每个路由可设置`mode = "client"` - 运行时模块缓存,支持本地开发中的文件变更失效 项目目标:保持运行时小巧且易于理解,以便团队能够快速迭代,同时仍能理清行为。 我非常希望能得到以下方面的反馈: 1. 路由/API的易用性 2. 在使用MicroVibe的前30分钟内,哪些地方让你感到困惑或缓慢? 3. 这个项目应该在哪些方面与Next/Astro/Vite的工作流程明显不同?