返回首页

一周热榜

4作者: fazlerocks1 天前原帖
我们正在生产环境中运行大型语言模型(LLMs)用于内容生成、客户支持和代码审查辅助。我们尝试了几个月来建立一个合适的评估管道,但我们测试的每个工具都有显著的局限性。 我们评估过的工具: - OpenAI的Evals框架:在基准测试方面表现良好,但在定制用例上存在挑战。通过YAML文件进行配置可能会很复杂,扩展功能需要深入其代码库。主要设计用于批处理,而非实时监控。 - LangSmith:具有强大的追踪能力,但评估功能似乎次于其可观察性重点。免费层之后,定价从每千条追踪0.50美元起,对于高容量使用来说,费用迅速累积。处理较大数据集时,用户界面可能会变得缓慢。 - Weights & Biases:强大的平台,但主要用于传统机器学习实验跟踪。设置复杂,需要较高的机器学习专业知识。我们的产品团队在有效使用上遇到困难。 - Humanloop:界面简洁,专注于提示版本控制,具备基本的评估能力。可用的评估类型有限,功能集的定价较高。 - Braintrust:对评估的有趣方法,但感觉像是一个早期阶段的产品。文档稀少,集成选项有限。 我们实际需要的: - 实时评估监控(不仅仅是批处理) - 不需要博士级设置的自定义评估功能 - 针对主观任务的人机协作工作流程 - 每个模型/提示的成本跟踪 - 与我们现有可观察性栈的集成 - 产品团队能够实际使用的工具 当前解决方案: 自定义脚本 + 基本指标的监控仪表板。每周在电子表格中进行手动审查。虽然可行,但无法扩展,并且我们会错过一些边缘情况。 有没有人找到能够很好处理生产环境中LLM评估的工具?我们是否期望过高,还是这些工具确实不成熟?特别希望听到没有专职机器学习工程师的团队的反馈。
4作者: Beardier4 天前原帖
我在每个项目中都不断重复使用相同的 `array.slice(i, i + n)` 逻辑。最终,我决定停止这种做法,干脆做一个工具库。 Chonkify 是一个小型(约 870B)、零依赖的 JS/TS 库,用于将任何类型的数据分块: - 适用于数组、字符串、缓冲区、集合、映射、类数组对象、类型化数组 - 支持异步可迭代对象(非常适合批量处理流) - Unicode 安全(正确处理字形簇、表情符号等) - 以 ESM 为优先,支持 TypeScript 我主要是为自己制作的,但觉得其他人也可能会觉得它有用。 欢迎反馈!
4作者: diagraphic1 天前原帖
大家好!希望你们今天过得愉快。今天我想分享一个我过去几个月一直在开发的实验性开源项目,名为Wildcat。Wildcat是一个嵌入式持久存储引擎,采用了类似于RocksDB和LevelDB的LSM树结构。开发这个系统的动机是为了尝试解决大多数嵌入式系统所面临的多写入者瓶颈。在这个过程中,尤其是在处理日志结构存储系统时,我实现了许多有趣的优化和算法,涉及到写入和读取路径。 希望你们能去看看 :) 亚历克斯
4作者: getToTheChopin4 天前原帖
我分享了一个项目,旨在通过语音命令和手势控制3D模型: - 使用语音命令更改交互模式(拖动、旋转、缩放、动画) - 使用手势控制3D模型 - 拖放以导入其他模型(目前仅支持GLTF格式) 该项目使用了three.js、MediaPipe、Web Speech API、Rosebud AI和Quaternius 3D模型创建。 GitHub仓库链接: [https://github.com/collidingScopes/3d-model-playground](https://github.com/collidingScopes/3d-model-playground) 我非常希望能得到您的反馈!谢谢!
4作者: ydew7 天前原帖
我是Yash,我正在构建LaminarFlow——一个以人工智能为基础的开源平台,旨在帮助初创公司、创始人和中小企业更高效地管理财务运营。 这个平台整合了财务洞察、银行业务、开票、支付跟踪、时间跟踪以及银行式对账,所有这些都由一个自动化处理繁琐事务的人工智能代理驱动。 我们将以开放初创公司的形式进行建设,公开分享一切,并保持完全开源(MIT许可证)。 非常期待您的反馈和想法!