嗨,HN,我是尼科莱。我和德国的一个小团队正在开发Rhesis,这是一个用于测试对话式大型语言模型(LLM)应用和代理的开源平台。今天我们分享了一个早期的社区预览。
<p>我们为什么要构建这个平台:
我们发现团队在测试过程中反复遇到困难:测试用例分散、指标不明确或不一致,以及大量的手动工作,仍然错过了生产前的明显失败。大多数工具假设单个开发者独自进行评估;实际上,测试往往涉及项目经理、领域专家、质量保证人员和工程师。我们构建Rhesis就是为了简化这种协作。
<p>它的功能:
Rhesis是一个可自托管的平台(带有用户界面),团队可以在上面创建、运行和审查对话式人工智能系统的测试。以下是几个核心理念:
<p>- 测试生成:创建和运行单轮或完整对话的测试;该平台还可以利用您的领域上下文生成单轮和多轮场景。
- 领域上下文/知识:提供背景材料以指导测试创建,这样您就不必从空白提示开始。
- 协作工具:非技术团队成员可以编写测试用例、留下评论和审查结果;开发者可以通过详细的跟踪和输出深入分析失败。
- 统一指标:可以引入DeepEval、RAGAS及类似开源框架的评估指标,而无需重新实现。
<p>当前状态:
仍处于早期阶段。我们上周发布了v0.4.2版本,提供零配置的Docker设置。核心流程已正常工作,但仍有一些粗糙之处。所有内容均采用MIT许可证;企业版将在后续推出,但开源核心将保持免费。我们目前专注于对话式应用,因为我们发现评估和质量保证工作流中存在最大的痛点。
<p>链接:
应用:app.rhesis.ai
GitHub:github.com/rhesis-ai/rhesis
文档:docs.rhesis.ai
<p>欢迎分享您的想法,并随时询问有关平台设计、架构或我们对协作测试工作流的思考。
返回首页
一周热榜
嘿,HN(黑客新闻),
我和我的团队开发了一个工具来解决我们自己的需求。我们厌倦了在每个新项目的头几天都要设置相同的 Vue + Laravel 模板:编写迁移、模型、基本的 CRUD 控制器,以及在前端连接表单和数据表。
因此,我们构建了 Codecannon。这是一个网络应用程序,您可以在其中定义数据模型、列和关系,它会为您生成一个全栈应用程序。
需要明确的是,生成的代码并不是由 AI 生成的。它是由我们自己的代码生成器确定性地生成的,因此输出始终是可预测的、干净的,并遵循常规最佳实践。
与其他工具的主要区别在于,它不是一个让您被锁定的无代码平台。当您完成后,它会将结构良好的代码库推送到您的 GitHub 仓库(或者您可以下载一个 .zip 文件)。您完全拥有它,并可以立即在其基础上开始构建您的实际功能。
它生成的内容包括:
- Laravel 后端:迁移、带有关系的模型、工厂、填充器和基本的 CRUD API 端点。
```
- Vue 前端:一个使用 PrimeVue 组件的单页面应用(SPA)。它包括身份验证页面、数据表,以及每个模型的创建/编辑表单,所有状态管理都已连接。
- 开发工具:包括 Docker 配置、CI/CD 流水线启动器、代码检查工具和格式化工具。
```
这个想法是跳过重复的工作,直接进入项目的有趣部分。
使用构建器是免费的,可以查看实时预览,并下载最多 5 个模块的完整代码库。对于更大的应用程序,只有在您决定需要源代码时才需要付费。
我们目前处于早期 alpha 阶段,非常希望能从社区获得一些诚实的反馈。生成的代码看起来合理吗?我们是否遗漏了任何明显的功能?这是您觉得有用的东西吗,或者您认识可能会感兴趣的人吗?请告诉我您的想法。