返回首页
最新
我开始在我们的合作社(柏林)教授具有主动性的人工智能(AI)。这是一个为期一天的密集研讨会,其中我会:
1. 介绍 IntelliJ IDEA 集成开发环境(IDE)和工具
2. 展示我名为 Claudine 的 Unix-全能教育开源 AI 代理(基本上能做 Claude Code 能做的事情,但我已经在2024年10月提供了它)
3. 讲解与 AI 相关的术语表
4. 逐步探索演示代码片段,引入越来越抽象的概念
5. 与参与者一起工作,探讨他们带来的想法
理论上,研讨会的参与者应该学到足够的知识,能够自己构建像 Claudine 这样的代理。在这个研讨会中,我介绍了我的开源 AI 开发栈(基于 Anthropic API 的 Kotlin 多平台 SDK)。许多示例都使用了 OPENRNDR 创意编程框架,这使得整个过程更加有趣。我是 OPENRNDR 的贡献者,并且我经常称它为“媒体艺术装置的操作系统”。这就是为什么这个研讨会被称为“具有主动性的 AI & 创意编程”。以下是演示列表:
- Demo010HelloWorld.kt
- Demo015ResponseStreaming.kt
- Demo020Conversation.kt
- Demo030ConversationLoop.kt
- Demo040ToolsInTheHandsOfAi.kt
- Demo050OpenCallsExtractor.kt
- Demo061OcrKeyFinancialMetrics.kt
- Demo070PlayMusicFromNotes.kt
- Demo090ClaudeAiArtist.kt
- Demo090DrawOnMonaLisa.kt
- Demo100AffirmationMirror.kt
- Demo110TruthTerminal.kt
- Demo120AiAsComputationalArtist.kt
我希望能进一步扩展它。
每个代码示例都带有“你将学到什么”的注释,我将其分为三类:
- AI 开发:技术,例如如何维护令牌窗口,最佳提示工程
- 认知科学:哲学和心理学基础,例如心智和推理的涌现理论,角色扮演的重要性
- Kotlin:在这种情况下,这种语言只是传递其他抽象 AI 开发概念的最简单可能的工具。
我正在收集来自我的研讨会参与者的大量反馈,并希望能进一步改进它们。现在,我正在考虑将这个研讨会录制成一系列 YouTube 视频。
你教授如何编写 AI 代理吗?你是如何做到的?对我的研讨会你有什么建议吗?
https://xemantic.com/ai/workshops
嗨,HN!我是Tony,Inngest的联合创始人。我想分享一下我们的AgentKit,这是我们开发并与一些早期用户在生产环境中测试了数月的Typescript多代理库。
尽管自OpenAI推出其Agents SDK以来,我们认为一个代理框架应该提供更确定性和灵活性的路由,能够与多个模型提供商合作,支持MCP(以便丰富工具使用),并通过使TypeScript AI开发者社区的过渡到生产用例变得顺畅,支持这个不断增长且势不可挡的社区。
这就是我们构建AgentKit的原因,我们对此感到非常兴奋,原因有几个:
首先,它很简单。我们采用了Anthropic和HuggingFace提出的KISS原则,允许你通过使用基本组件逐步增加你的AgentKit程序的自主性:
- 代理:可以与提示、工具和MCP原生支持结合的LLM调用。
- 网络:一种简单的方式,让代理通过共享状态进行合作,包括交接。
- 状态:结合了对话历史和完全类型化的状态机,用于路由。
- 路由器:自主性所在的地方,从基于代码到基于LLM的(例如:ReAct)编排。
路由器是魔法发生的地方,它允许你构建确定性的、可靠的、可测试的代理。
AgentKit的路由工作如下:网络在循环中调用自身,检查状态以确定使用路由器接下来调用哪些代理。返回的代理运行,然后可选地使用其工具更新状态数据。在下一个循环中,网络检查状态数据和对话历史,确定运行哪个新代理。
这种完全类型化的状态机路由允许你使用任何有效的代理模式确定性地构建代理——这意味着你的代码易于阅读、编辑、理解和调试。
这也使得交接变得非常容易:你使用常规代码和状态定义代理应何时相互交接(或通过在路由器中调用LLM进行基于AI的路由)。这与OpenAI Agents SDK类似,但更易于管理、规划和构建。
然后是本地开发和转移到生产的能力。
AgentKit与Inngest的工具兼容,意味着你可以使用Inngest的本地DevServer测试代理,它提供跟踪、输入、输出、重放、工具和MCP输入输出,以及(很快)一个逐步调试器,使你能够轻松理解并直观地看到代理循环中发生的事情。
在生产中,你还可以选择将AgentKit与Inngest结合使用,以实现容错执行。每个代理的LLM调用都包装在一个步骤中,工具可以使用多个步骤来包含诸如人工干预之类的事物。这为你提供了原生的编排、可观察性和开箱即用的规模。
你会发现文档作为一个AgentKit SWE-bench的示例和多个编码代理示例。
它是完全开源的,采用Apache 2许可证。
如果你想开始:
- npm: npm i @inngest/agent-kit
- GitHub: https://github.com/inngest/agent-kit
- 文档: https://agentkit.inngest.com/overview
我们很高兴最终推出AgentKit;让我们知道你的想法!
嗨,HN!我们很高兴能分享我们在Hyperbrowser上开发的MCP服务器——这是我们几天来努力工作的成果。我们认为这是一个很不错的方式,可以将大型语言模型(LLMs)和像Cursor和Windsurf这样的集成开发环境(IDEs)连接到互联网。
我们的MCP服务器提供了七个用于数据收集和浏览的工具:
1. `scrape_webpage` - 从任何网页提取格式化的内容(如Markdown、截图等)
2. `crawl_webpages` - 在多个链接页面之间导航,并提取适合LLM的格式化内容
3. `extract_structured_data` - 将杂乱的HTML转换为结构化的JSON
4. `search_with_bing` - 使用Bing搜索查询网络并获取结果
5. `browser_use_agent` - 使用浏览器代理进行快速、轻量级的浏览器自动化
6. `openai_computer_use_agent` - 使用OpenAI的CUA模型进行通用自动化
7. `claude_computer_use_agent` - 使用Claude进行复杂的浏览器任务
您可以通过命令 `npx -y hyperbrowser-mcp` 和一个Hyperbrowser API密钥将服务器连接到Cursor、Windsurf、Claude桌面以及其他任何MCP客户端。我们在过去几个月中开发的云浏览器基础设施上运行此服务——它可以自动处理验证码、代理和隐身浏览。
您可以用它做一些有趣的事情:(1)使用Claude桌面进行深入研究,(2)总结最新的HN帖子,(3)从Cursor中的简短代码片段创建完整的应用程序,(4)在Cursor中自动化代码审查,(5)使用Windsurf为任何网站生成llms.txt,(6)从Windsurf订购寿司(老实说,这只是为了好玩——我可能不会真的去做)。
我们在公开的环境中构建这个服务器,欢迎任何正在构建代理或从事网页自动化的人提供反馈。如果您发现错误或有功能请求,请告诉我们!MCP的一大问题是安装用户体验糟糕,认证凭据必须硬编码。我们目前没有解决方案,但Anthropic似乎在这方面正在努力,所以我们对此感到兴奋。我们也很想听听您对服务器本身、Hyperbrowser或安装体验的任何其他抱怨或想法。
您可以访问我们的网站 <a href="https://hyperbrowser.ai">https://hyperbrowser.ai</a>,或查看源代码 <a href="https://github.com/hyperbrowserai/mcp" rel="nofollow">https://github.com/hyperbrowserai/mcp</a>。