返回首页
最新
大家好。我开发了Timefence,因为在构建机器学习训练集时,我总是遇到同样的错误。你将特征表与标签进行左连接,有些行的特征时间戳在预测事件之后,这样模型就会在未来数据上进行训练。第一次调试这个问题花了我很长时间,因为没有任何错误提示。
Timefence会审计你的数据集,检查特征时间大于标签时间的行,并可以使用时间点正确的连接来重建数据集。它基于DuckDB构建,能够在大约12秒内处理100万个标签和10个特征。此外,还有一个用于持续集成的--strict标志。
```
pip install timefence
timefence quickstart churn-example && cd churn-example
timefence audit data/train_LEAKY.parquet
```
采用MIT许可证。如果你有任何问题,我很乐意回答。
享受吧。<p>更新:它已经在Codex CLI中,但尚未启用。抱歉造成误报。
嗨,HN,
我一直在研究一种简单的方法,可以在Postgres数据库中完全运行代理,也就是“每行一个代理”。
你可以用这个构建以下内容:
* 自己的代理协调器
* 一个具有时间旅行功能的个人助手
* (还有更多我现在想不起来的东西)
虽然还没有完全完成,但我想分享一下目前的进展。
大家好,我们是来自Omnara的Kartik、Ishaan和Christian(<a href="https://www.omnara.com">https://www.omnara.com</a>)。我们正在构建一个网络和移动端的智能IDE,支持Claude Code和Codex,让您可以随时随地运行和与编码代理进行交互。Omnara允许您在自己的机器上运行Claude Code和Codex会话,并通过网络和移动界面展示这些会话,让您即使不在桌前也能保持参与。可以把它想象成Claude Code Desktop或Conductor,区别在于您可以在手机上继续会话。
<p>这里是网络和移动应用的演示 - <a href="https://youtu.be/R8Wmy4FLbhQ" rel="nofollow">https://youtu.be/R8Wmy4FLbhQ</a></p>
我们在去年初开始使用Claude Code,并迅速发现一个模式:代理可以独立工作很长时间,但每当需要后续输入时,进展就会停滞。如果在我们离开桌子的时候发生这种情况,一切都会暂停。我们查看了当时的远程代理解决方案,如Codex Web和Devin,但它们都运行在远程虚拟机上,而我们希望我们的编码代理能够在自己的环境中运行。我们第一次尝试解决这个问题是创建一个轻量级的包装器,将Claude Code CLI中的消息流式传输到移动应用,但这种方法最终变得脆弱且难以维护。
<p>随着Claude Agent SDK的成熟,它给了我们足够的控制权,可以从头开始重写Omnara,并直接运行代理循环。我们选择在网络和移动端构建图形用户界面,而不是文本用户界面或命令行界面,因为我们认为图形用户界面在与代理和代码交互时通常更符合人体工程学,尤其是在移动设备上。我们仍然保留了命令行界面和文本用户界面的主要优势:可以在任何地方运行,包括无头机器上。</p>
Omnara通过在用户的机器(或远程虚拟机)上运行一个小型无头守护进程来保持这一特性,该守护进程托管代理循环。守护进程与我们的服务器保持一个经过身份验证的出站WebSocket连接,转发在用户机器上运行的代理与任何连接的网络或移动客户端之间的消息。由于守护进程仅进行出站连接,因此用户的机器上不需要开放端口、SSH访问或隧道。
<p>在Omnara的第一个版本中,用户喜欢代理会话在他们自己的环境中运行,但仍然依赖于机器保持在线。一些用户在保持在线的远程机器上运行Omnara,这对他们来说效果很好,尽管大多数用户仍然在笔记本电脑上完成大部分工作。在当前版本中,当您的本地机器离线时,Omnara可以在托管的远程沙箱中继续代理会话。</p>
代理的对话状态已经在我们的服务器上持久化,您可以选择启用工作代码的云同步。当启用同步时,Omnara会在每次对话轮次中创建git提交并将其推送到我们的服务器,因此无论是在本地还是在云中继续执行,都可以从相同的状态恢复。如果您在远程沙箱中继续工作,当您返回到本地机器时,可以将任何更改拉回到本地环境中。沙箱中的环境一致性尚未完美,但在实践中,缺失的依赖项通常可以通过请求代理安装来轻松解决。
<p>我们从使用Omnara初始版本中学到的另一件事是,移动设备适合快速交互,但不适合长时间的来回交流。用户希望有一种免提的方式,在走路、开车或做其他事情时保持代理的运行,这促使我们添加了语音代理。由于我们来自更传统的软件工程背景,老实说,我们认为通过与语音代理对话来编码会显得有些花哨,因此主要作为备用功能添加。</p>
令我们惊讶的是,语音代理在实践中变得非常有用。在与编码代理合作时,冗余和过于明确通常会有所帮助,人们在说话时自然会比打字时提供更多细节。随着对话的展开,与代理的来回交流往往会产生比一次性给出提示更为稳固的计划(这在技术上也可以通过文本完成,但通过语音进行对话和迭代感觉更容易和自然)。这也很有趣。在散步时与代理讨论一个想法,比盯着终端屏幕要愉快得多。
<p>要试用Omnara,请打开终端并使用以下命令下载:</p>
<pre><code> curl -fsSL https://omnara.com/install/install.sh | bash
</code></pre>
然后在任何git仓库中运行omnara。这将在该仓库中启动一个无头的Claude Code或Codex会话,该会话会立即出现在Omnara的网络和移动应用中。从那里,您可以继续该会话或远程启动新的会话(无论是否有工作树),并在不打断代理的情况下在网络和移动客户端之间切换。
<p>Omnara每月提供10个代理会话的免费使用,之后为无限会话收取20美元/月。当代理在您自己的环境中运行时,您可以使用现有的Claude或Codex订阅,因此无需为额外的令牌支付费用。如果您使用Claude Code或Codex,我们非常希望听到您对Omnara的反馈!</p>
企业需要约90%的准确率才能部署网络代理。到目前为止,没有任何代理在实际任务中接近这个标准。TinyFish是首个准备投入生产的网络代理。以下是证据。
在Online-Mind2Web上的困难任务得分结果(300个任务,136个实时网站,人类相关评审):
- TinyFish: 81.9%
- OpenAI Operator: 43.2%
- Claude Computer Use: 32.4%
- 浏览器使用: 8.1%
为什么不和其他人一样使用WebVoyager?
因为它不可靠。简单任务、谷歌搜索快捷方式,以及一个与人类仅62%一致的评审。浏览器使用在WebVoyager上自报89%——但在这里的困难任务中得分仅为8.1%。
我们将TinyFish与Online-Mind2Web进行了评估——300个真实任务,136个实时网站,三个难度级别,以及一个与人类85%一致的评审。没有捷径。没有简单模式。
食谱库是开源的:<a href="https://github.com/tinyfish-io/tinyfish-cookbook" rel="nofollow">https://github.com/tinyfish-io/tinyfish-cookbook</a>
您可以在这里查看所有失败任务的运行情况:<a href="https://tinyurl.com/tinyfish-mind2web" rel="nofollow">https://tinyurl.com/tinyfish-mind2web</a>
欢迎就架构、基准测试方法或我们为何认为WebVoyager得分具有误导性提出问题。
我正在开发 chatuino,这是一个功能丰富的终端 Twitch 聊天客户端,使用 Go 和 Bubble Tea 构建。<p>其功能包括多账户支持、渲染表情(包括 7TV 和 BTTV)、支持 Go 模板的自定义命令、平滑滚动、屏蔽词汇/用户、原生 Twitch 功能如聊天投票,以及高度可定制的快捷键、颜色和布局。<p>安装方法:
curl -sSfL <a href="https://chatuino.net/install" rel="nofollow">https://chatuino.net/install</a> | sh<p>或者通过 Go 安装:
go install github.com/julez-dev/chatuino@latest<p>在发布页面上可以找到适用于 Linux、macOS 和 Windows 的预编译二进制文件。<p>GitHub: <a href="https://github.com/julez-dev/chatuino" rel="nofollow">https://github.com/julez-dev/chatuino</a>
网站: <a href="https://chatuino.net" rel="nofollow">https://chatuino.net</a>