返回首页
最新
云端人工智能的定价是按令牌计费的。你的工作流程越有用,成本就越高。我构建了一种双模型编排模式,将80%的工作分配给一个免费的本地模型(Ollama上的Qwen3 8B,支持GPU加速),仅将合成/判断阶段发送到云API。
一个包含50项研究的工作流程成本为0.15-0.40美元,而全云方案则为8-15美元。在重要的输出质量上,两者相同。
技术栈:RTX 5080笔记本,使用Docker的Ollama(支持GPU直通),PostgreSQL,Redis,以及用于最后20%的Claude API。
工作模式:本地扫描 → 本地评分 → 本地去重 → 通过云合成。四个阶段中,有三个是免费的。
遇到的问题:Qwen3通过/api/generate的思考令牌(应使用/api/chat),Docker绑定仅支持IPv4,而Windows将localhost解析为IPv6,以及消费级显卡的GPU内存限制。
欢迎在评论中分享架构细节。
我发现了一种工作流程,使Claude成为全栈网页开发中大部分工作的绝佳助手。然而,我认为界面开发和用户体验是限制生产力潜力的最重要因素。我很想听听大家是否有相关经验,或者找到过好的解决方法?
嗨,HN,
我构建了 llm-use:一个轻量级的 Python 工具包,用于高效的多 LLM 代理工作流程。
核心模式:使用强大的模型(Claude/GPT-4o/大本地模型)进行规划和综合;使用廉价/本地的工作者处理并行子任务(研究、抓取、总结、提取等)。
功能:
• 混合使用 Anthropic、OpenAI、Ollama 和 llama.cpp
• 智能路由器:优先使用廉价/本地工作者,仅在必要时升级(基于学习和启发式)
• 并行工作者(–max-workers)
• 实时抓取 + 缓存(BS4 或 Playwright)
• 离线优先(完全支持 Ollama)
• 成本跟踪(云端费用,0 本地费用)
• TUI 聊天 + MCP 服务器模式
• 本地会话日志
快速示例(混合模式):
```bash
python3 cli.py exec \
--orchestrator anthropic:claude-3-7-sonnet-20250219 \
--worker ollama:llama3.1:8b \
--enable-scrape \
--task "总结 6 个关于后量子密码学的最新来源"
```
或路由版本:
```bash
python3 cli.py exec \
--router ollama:llama3.1:8b \
--orchestrator openai:o1 \
--worker gpt-4o-mini \
--task "解释最近的 macOS 安全更新"
```
采用 MIT 许可证,依赖最小,可嵌入。
仓库链接: [https://github.com/llm-use/llm-use](https://github.com/llm-use/llm-use)
欢迎反馈:
• 您认为有用的路由启发式
• 关于代理成本/本地与云的痛点
• 缺失的集成?
谢谢!