返回首页
最新
嘿,HN
我有一个个人需求想要解决,并认为这可能对其他人也有帮助:如果你和我一样是 ChatGPT 的专业用户,可能会厌倦不断在模型选择下拉菜单中切换模型、给模型输入提示,然后重复这一过程。因此,我开发了 RouteGPT 来解决这个问题。
RouteGPT 是一个针对 chatgpt.com 的 Chrome 扩展,它会根据你定义的偏好自动选择合适的 OpenAI 模型。例如:“创意小说写作、故事构思、富有想象力的散文” → GPT-4o,或者“批判性分析、深度见解和市场研究” → o3。
它是如何工作的?
在其背后,RouteGPT 将路由决策拆分为两个阶段:路由选择和模型分配。
路由选择:这就是“什么”。你使用“领域-动作分类法”定义一组人类可读的路由策略。可以把它看作是用简单英语捕捉的清晰使用场景。更具体地说,你使用自然语言定义路由策略,采用领域-动作分类法(例如,医疗保健、代码解释)。路由选择由一个小而强大的 1.5b LLM 路由模型预测。你可以在论文中阅读更多相关研究。
模型分配:这就是“如何”。一个单独的简单映射配置将每个策略连接到特定的 LLM。比如,finance/analyze_earnings_report 策略可能映射到一个强大的模型如 GPT-4o,而一个更简单的 general/greeting 策略则映射到一个更快、更便宜的模型。
希望大家喜欢这个扩展——开发它的过程非常有趣。
[1] 模型: [https://huggingface.co/katanemo/Arch-Router-1.5B](https://huggingface.co/katanemo/Arch-Router-1.5B)
[2] 论文: [https://arxiv.org/abs/2506.16655](https://arxiv.org/abs/2506.16655)
P.S. 如果你想在你的聊天机器人中使用这种偏好对齐的路由,它已经完全打包并集成在 Arch 中:我构建的开源边缘和服务代理:[https://github.com/katanemo/archgw](https://github.com/katanemo/archgw)
嗨,HN,
今天我们推出了 phind.design([https://phind.design](https://phind.design)),这是一款图像编辑器和设计工具,利用 4o 和自定义模型,允许用户为从标志和广告到创意网站和应用程序设计等各种内容生成和编辑设计。
我们创建 phind.design 是为了应对我们认为 4o 图像生成的最大限制:4o 在生成图像的初始版本方面表现出色,但在编辑时无法避免影响图像的其他部分。
我们通过在聊天中同时运行 Flux Kontext 和 4o 图像生成,以及引入一个由自定义模型驱动的精确编辑器来解决这个问题,用户可以指定要修改的区域,我们保证只会修改该区域。
我们的精确编辑器在图像编辑方面经过测试处于最先进水平,允许将新的附加图像插入到现有图像中。这使得用户可以在图像中插入标志、产品或面孔,而不会影响图像的其他部分,甚至可以修复被 4o 处理得不好的标志和面孔。文本编辑的精确编辑模型仍在开发中,我们将在该模型的下一个版本中进行改进。我们建议目前使用聊天功能来编辑文本。
示例:将 UT Austin 标志插入直升机广告([https://phind.design/edit?chat=cmd27o2n10001l704h6865f3u](https://phind.design/edit?chat=cmd27o2n10001l704h6865f3u))
我们始终为图像生成和编辑提供多个变体,因为我们认为这种多样性对于获得您所要求的内容至关重要。
示例:保罗·格雷厄姆在创业天堂([https://phind.design/edit?chat=cmd23h91c000jky04no5d92uy](https://phind.design/edit?chat=cmd23h91c000jky04no5d92uy))
我们非常期待在 AI 生成的网站中增加更多的变化,因为许多网站构建工具都使用相同的 CSS 库,导致许多网站看起来相似。我们希望能让构建者和创意者在当前工具所需时间的十分之一内,创造出真正独特的设计。
示例:给我做一个 Popeyes 的着陆页,眼睛真的要突出([https://phind.design/edit?chat=cmd25imtm0001jr046nsag4lu](https://phind.design/edit?chat=cmd25imtm0001jr046nsag4lu))
示例:一个火车地图,三明治配料替代地铁站。([https://phind.design/edit?chat=cmd23i98c0001ie04l56npyj3](https://phind.design/edit?chat=cmd23i98c0001ie04l56npyj3))
作为对学习 Figma 或 Photoshop 耗时感到沮丧的工程师,我们希望 phind.design 能让您轻松实现您最疯狂的创意。
编辑器远非完美,特别是在文本处理方面。我们正在努力改进,并且正在开发一个新的自定义精确编辑模型。与此同时,我们期待听到您的意见和反馈!
我们开发 any-llm 是因为我们需要一个轻量级的路由器,以便为大型语言模型(LLM)提供商提供最小的开销。切换模型只需更改字符串:将“openai/gpt-4”更新为“anthropic/claude-3”,就完成了。
它在可用时使用官方提供商的 SDK,这样可以帮助确保兼容性更新由提供商自行处理。也不需要代理或网关服务,因此入门非常简单——只需使用 pip 安装并导入即可。
目前支持 20 多个提供商,包括 OpenAI、Anthropic、Google、Mistral 和 AWS Bedrock。我们非常想听听您的想法!
您可以同时与多个提供商的语言模型进行对话并比较结果。我们希望获得您对哪些定制功能会对您有用的反馈。我认为这对于想要尝试使用多个语言模型进行编程并选择最佳模型的人来说非常有帮助。我会尽快着手添加多模态支持。
我们刚刚发布了开放大语言模型规范(Open LLM Specification,简称 OLLS)——这是一个由社区驱动的标准,旨在统一开发者与大型语言模型(LLM)之间的交互方式,适用于 OpenAI、Anthropic、Google 等多个提供商。
目前,每个提供商的请求/响应格式各不相同,这使得集成变得困难:
- 解析响应不一致
- 切换模型需要自定义包装
- 错误处理和元数据差异巨大
OLLS 定义了一种简单、可扩展的 JSON 规范,适用于输入(提示、参数、元数据)和输出(内容、推理、使用情况、错误)。可以将其视为 LLM 的 OpenAPI——可移植、可预测且与提供商无关。
GitHub 仓库 - [https://github.com/julurisaichandu/open-llm-specification](https://github.com/julurisaichandu/open-llm-specification)
示例输入/输出格式、目标和路线图
我们正在寻找贡献者、反馈和实际应用案例!让我们共同构建一个统一的 LLM 接口——欢迎贡献想法或加入讨论。