返回首页
最新
我是一名在[大公司]工作的高级工程师,人工智能工具无处不在。虽然并没有强制要求使用这些工具,但由于它们的可获得性,绝大多数人还是会选择使用。
关于人工智能,社会层面上有很多担忧,但在个人层面上,我开始慢慢感到自己的技能不如以前了。我当然能够做更多的事情,但对事物的理解却变得更少。编程的“提示-然后-审查”循环(如Claude Code、Codex、Pi、OpenCode、Amp等)并没有像自己编写代码那样促进对技能的掌握。当然,你可以说自己是在“更高的抽象层次上思考”。但当这种抽象失败时会发生什么呢?因为抽象往往会失败。
这种技能的消退并不是一个快速的过程。我并不是一夜之间就失去了编程能力。然而,这种感觉就像生锈一样,慢慢侵蚀着基础,直到它们崩溃。
目前,这种工具需要一双熟练的手来正确引导。然而,使用这个工具的过程似乎又在削弱这双熟练的手。我发现这种负反馈循环在软件生计能力和软件质量的广泛影响上都令人非常担忧。
所以,我想问问HN社区。大家是如何保护自己的技能的?尤其是在积极使用人工智能的情况下。
嗨,HN——我们是Julius、Jago和Nils,我们正在创建transload(transload.io)。
transload帮助LTL(少量货物运输)卡车公司利用他们终端中已安装的安全摄像头来测量货物尺寸。我们不再需要通过专用的尺寸测量站发送货物,而是可以在货物通过正常的装卸流程时自动进行测量。
我们为HN特定的用户准备了一个小型演示网站:<a href="https://hn.transload.io/">https://hn.transload.io/</a>
在LTL运输中,货物尺寸至关重要,因为它们会影响定价、货物分类和拖车利用率。如果货物的实际尺寸大于发货人报告的尺寸,承运人可能会低估费用,但仍然占用相同的拖车空间。显而易见的解决方案是测量每一件货物,但在繁忙的货运终端,这实际上是相当困难的。专用的尺寸测量系统适用于通过它们的货物,但可能会增加叉车的行驶距离,造成装卸区拥堵,并改变正常的工作流程。实际上,许多终端只测量部分货物的尺寸。
Jago在家族的LTL运输和交叉装卸业务中长大,对这个行业非常熟悉。我们最初并不是为了构建货物尺寸测量系统而开始的。我们的第一个想法是开发一个用于优化交叉装卸终端内叉车路线的人工智能系统。在与客户交流并与50多家运输公司交谈后,我们意识到,叉车路线并不是人们反复提到的痛点,货物尺寸才是。
与此同时,我们看到空间人工智能技术正在迅速发展。单目测距技术已经显著提升,使得从普通摄像头视频中恢复准确的3D结构成为可能,而无需昂贵的激光雷达传感器。MapAnything(<a href="https://github.com/facebookresearch/map-anything" rel="nofollow">https://github.com/facebookresearch/map-anything</a>)和MoGe(<a href="https://github.com/microsoft/moge" rel="nofollow">https://github.com/microsoft/moge</a>)就是两个例子。
货运终端的结构也很有帮助:固定的摄像头、重复的工作流程、条形码扫描时间戳和已知的布局。几乎每个仓库都已经安装了闭路电视。这让我们产生了一个简单的问题:如果我们能够利用现有的安全摄像头自动测量货物,完全在后台进行,会怎样呢?这将允许承运人在不改变装卸工作流程的情况下,测量每一件货物。
我们的系统主要有两个步骤:将条形码扫描与视频中的正确对象连接,然后估计该对象的实际尺寸。
装卸工人已经在正常工作流程中扫描货物。每次扫描都会给我们一个时间戳和一个处理单元ID。在这个时间戳附近,我们分析视频,以推断出哪个工人进行了扫描以及他们扫描了哪个货物。我们原本期待使用视觉语言模型(VLMs)来处理这个问题,但结果发现它们的可靠性远低于预期。因此,我们训练了自己的模型,该模型能够根据视线、身体方向和运动等线索进行3D推理。
这个关联步骤至关重要。一帧图像中可能包含数十个托盘、几个工人、叉车和部分隐藏的货物。如果我们将扫描与错误的对象关联起来,测量结果将毫无意义。
一旦我们确定了目标货物,我们就会对其进行分割,并从单目摄像头视角估计一个度量的3D边界框。在边界框拟合完成后,尺寸就很简单:长度、宽度、高度和体积都可以直接从中得出。
困难的部分是如何从一台普通的安全摄像头中精确拟合这个边界框。单张2D图像并不能直接告诉你物体的形状或比例,许多不同的3D边界框可以解释相似的图像证据。我们使用物体掩膜、可见边缘、地面接触、摄像头几何和来自终端的约束条件来找到最符合场景的3D边界框。
我们目前正在与几家LTL承运人合作。对于一位客户,大约10%的检查货物存在尺寸错误。第一个用例是收入恢复:识别尺寸不足的货物,附上视觉证据,帮助承运人纠正账单或分类。从长远来看,这些数据可以帮助承运人更好地理解拖车的利用率。
在LTL货运领域进行3D计算机视觉研究是一个奇特的领域,我们每周都会学到新东西。如果你在单目重建、3D物体检测、仓库感知或复杂的现实世界计算机视觉方面有经验,我们非常希望听到你的看法。关于货物、LTL终端或技术方法的问题也非常欢迎。
嘿,HN,这是仓库链接,如果你想试试的话:<a href="https://github.com/Kaelio/ktx" rel="nofollow">https://github.com/Kaelio/ktx</a><p>期待你的反馈。
在 Deno,我们越来越多地使用 OpenClaw 和其他代理来解决 Deno Deploy 中的生产问题——当 PagerDuty 警报触发时,代理会开始研究原因并进行修复。
为了实现这一点,代理需要访问真实的生产系统——如 Postgres、Kubernetes、GCP、ClickHouse、GitHub 等。但这至少是危险的——我们希望破坏性操作能够经过其他大型语言模型(LLM)的审核,由人类批准,并进行适当的记录。
Claw Patrol 通过 WireGuard 或 Tailscale 终止 TCP 连接,然后解析应用协议(例如 HTTP、Postgres、SSH),以应用规则,允许您拒绝或允许请求。
有一些项目作为代理位于代理前面,用于进行秘密注入或应用各种保护措施,但没有一个满足我们的需求(LLM 网关、MCP 代理、沙盒),特别是在处理低级协议或处理复杂的现实世界情况(如通过 Kubernetes 隧道化 Postgres)方面。
该项目使用 Go 编写,采用 HCL 配置,采用 MIT 许可证。欢迎提出任何问题。
用于授权渗透测试和漏洞研究的人工智能原生红队工作台,配备专业代理、沙盒工具、证据记录和可重放的时间线。
我主要使用Claude代码,有时也会用Cursor。我不断地发出提示,代理则不断地进行编码。但在进行有意义的更改后才会进行Git提交,最糟糕的情况下,对于一个小功能也只会提交一次。我会自己检查关键代码,每当代理搞乱代码时,我需要它将更改恢复到之前的版本(大多数情况下是恢复到上一个提示)。这些微小的更改通常不会在Git中提交。这个恢复过程让我很头疼,而提示代理恢复上一个更改时也常常出错(它有时会执行Git revert)。我想知道有没有什么合理的方法来解决这个问题,而不是让自己变得疯狂……