5作者: Raywob3 个月前原帖
云端人工智能的定价是按令牌计费的。你的工作流程越有用,成本就越高。我构建了一种双模型编排模式,将80%的工作分配给一个免费的本地模型(Ollama上的Qwen3 8B,支持GPU加速),仅将合成/判断阶段发送到云API。 一个包含50项研究的工作流程成本为0.15-0.40美元,而全云方案则为8-15美元。在重要的输出质量上,两者相同。 技术栈:RTX 5080笔记本,使用Docker的Ollama(支持GPU直通),PostgreSQL,Redis,以及用于最后20%的Claude API。 工作模式:本地扫描 → 本地评分 → 本地去重 → 通过云合成。四个阶段中,有三个是免费的。 遇到的问题:Qwen3通过/api/generate的思考令牌(应使用/api/chat),Docker绑定仅支持IPv4,而Windows将localhost解析为IPv6,以及消费级显卡的GPU内存限制。 欢迎在评论中分享架构细节。
1作者: justvugg3 个月前原帖
嗨,HN, 我构建了 llm-use:一个轻量级的 Python 工具包,用于高效的多 LLM 代理工作流程。 核心模式:使用强大的模型(Claude/GPT-4o/大本地模型)进行规划和综合;使用廉价/本地的工作者处理并行子任务(研究、抓取、总结、提取等)。 功能: • 混合使用 Anthropic、OpenAI、Ollama 和 llama.cpp • 智能路由器:优先使用廉价/本地工作者,仅在必要时升级(基于学习和启发式) • 并行工作者(–max-workers) • 实时抓取 + 缓存(BS4 或 Playwright) • 离线优先(完全支持 Ollama) • 成本跟踪(云端费用,0 本地费用) • TUI 聊天 + MCP 服务器模式 • 本地会话日志 快速示例(混合模式): ```bash python3 cli.py exec \ --orchestrator anthropic:claude-3-7-sonnet-20250219 \ --worker ollama:llama3.1:8b \ --enable-scrape \ --task "总结 6 个关于后量子密码学的最新来源" ``` 或路由版本: ```bash python3 cli.py exec \ --router ollama:llama3.1:8b \ --orchestrator openai:o1 \ --worker gpt-4o-mini \ --task "解释最近的 macOS 安全更新" ``` 采用 MIT 许可证,依赖最小,可嵌入。 仓库链接: [https://github.com/llm-use/llm-use](https://github.com/llm-use/llm-use) 欢迎反馈: • 您认为有用的路由启发式 • 关于代理成本/本地与云的痛点 • 缺失的集成? 谢谢!