3作者: rdrmc17 天前原帖
我是一名在[大公司]工作的高级工程师,人工智能工具无处不在。虽然并没有强制要求使用这些工具,但由于它们的可获得性,绝大多数人还是会选择使用。 关于人工智能,社会层面上有很多担忧,但在个人层面上,我开始慢慢感到自己的技能不如以前了。我当然能够做更多的事情,但对事物的理解却变得更少。编程的“提示-然后-审查”循环(如Claude Code、Codex、Pi、OpenCode、Amp等)并没有像自己编写代码那样促进对技能的掌握。当然,你可以说自己是在“更高的抽象层次上思考”。但当这种抽象失败时会发生什么呢?因为抽象往往会失败。 这种技能的消退并不是一个快速的过程。我并不是一夜之间就失去了编程能力。然而,这种感觉就像生锈一样,慢慢侵蚀着基础,直到它们崩溃。 目前,这种工具需要一双熟练的手来正确引导。然而,使用这个工具的过程似乎又在削弱这双熟练的手。我发现这种负反馈循环在软件生计能力和软件质量的广泛影响上都令人非常担忧。 所以,我想问问HN社区。大家是如何保护自己的技能的?尤其是在积极使用人工智能的情况下。
7作者: nils_spatial17 天前原帖
嗨,HN——我们是Julius、Jago和Nils,我们正在创建transload(transload.io)。 transload帮助LTL(少量货物运输)卡车公司利用他们终端中已安装的安全摄像头来测量货物尺寸。我们不再需要通过专用的尺寸测量站发送货物,而是可以在货物通过正常的装卸流程时自动进行测量。 我们为HN特定的用户准备了一个小型演示网站:<a href="https:&#x2F;&#x2F;hn.transload.io&#x2F;">https:&#x2F;&#x2F;hn.transload.io&#x2F;</a> 在LTL运输中,货物尺寸至关重要,因为它们会影响定价、货物分类和拖车利用率。如果货物的实际尺寸大于发货人报告的尺寸,承运人可能会低估费用,但仍然占用相同的拖车空间。显而易见的解决方案是测量每一件货物,但在繁忙的货运终端,这实际上是相当困难的。专用的尺寸测量系统适用于通过它们的货物,但可能会增加叉车的行驶距离,造成装卸区拥堵,并改变正常的工作流程。实际上,许多终端只测量部分货物的尺寸。 Jago在家族的LTL运输和交叉装卸业务中长大,对这个行业非常熟悉。我们最初并不是为了构建货物尺寸测量系统而开始的。我们的第一个想法是开发一个用于优化交叉装卸终端内叉车路线的人工智能系统。在与客户交流并与50多家运输公司交谈后,我们意识到,叉车路线并不是人们反复提到的痛点,货物尺寸才是。 与此同时,我们看到空间人工智能技术正在迅速发展。单目测距技术已经显著提升,使得从普通摄像头视频中恢复准确的3D结构成为可能,而无需昂贵的激光雷达传感器。MapAnything(<a href="https:&#x2F;&#x2F;github.com&#x2F;facebookresearch&#x2F;map-anything" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;facebookresearch&#x2F;map-anything</a>)和MoGe(<a href="https:&#x2F;&#x2F;github.com&#x2F;microsoft&#x2F;moge" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;microsoft&#x2F;moge</a>)就是两个例子。 货运终端的结构也很有帮助:固定的摄像头、重复的工作流程、条形码扫描时间戳和已知的布局。几乎每个仓库都已经安装了闭路电视。这让我们产生了一个简单的问题:如果我们能够利用现有的安全摄像头自动测量货物,完全在后台进行,会怎样呢?这将允许承运人在不改变装卸工作流程的情况下,测量每一件货物。 我们的系统主要有两个步骤:将条形码扫描与视频中的正确对象连接,然后估计该对象的实际尺寸。 装卸工人已经在正常工作流程中扫描货物。每次扫描都会给我们一个时间戳和一个处理单元ID。在这个时间戳附近,我们分析视频,以推断出哪个工人进行了扫描以及他们扫描了哪个货物。我们原本期待使用视觉语言模型(VLMs)来处理这个问题,但结果发现它们的可靠性远低于预期。因此,我们训练了自己的模型,该模型能够根据视线、身体方向和运动等线索进行3D推理。 这个关联步骤至关重要。一帧图像中可能包含数十个托盘、几个工人、叉车和部分隐藏的货物。如果我们将扫描与错误的对象关联起来,测量结果将毫无意义。 一旦我们确定了目标货物,我们就会对其进行分割,并从单目摄像头视角估计一个度量的3D边界框。在边界框拟合完成后,尺寸就很简单:长度、宽度、高度和体积都可以直接从中得出。 困难的部分是如何从一台普通的安全摄像头中精确拟合这个边界框。单张2D图像并不能直接告诉你物体的形状或比例,许多不同的3D边界框可以解释相似的图像证据。我们使用物体掩膜、可见边缘、地面接触、摄像头几何和来自终端的约束条件来找到最符合场景的3D边界框。 我们目前正在与几家LTL承运人合作。对于一位客户,大约10%的检查货物存在尺寸错误。第一个用例是收入恢复:识别尺寸不足的货物,附上视觉证据,帮助承运人纠正账单或分类。从长远来看,这些数据可以帮助承运人更好地理解拖车的利用率。 在LTL货运领域进行3D计算机视觉研究是一个奇特的领域,我们每周都会学到新东西。如果你在单目重建、3D物体检测、仓库感知或复杂的现实世界计算机视觉方面有经验,我们非常希望听到你的看法。关于货物、LTL终端或技术方法的问题也非常欢迎。