2作者: tash_2s3 个月前原帖
我为智能眼镜开发了一款免提的抬头显示器(HUD),能够运行现实世界的速通计时器,并根据摄像头所见自动进行分段。演示场景:制作寿司。<p>演示视频:<a href="https://www.youtube.com/watch?v=NuOVlyr-e1w" rel="nofollow">https://www.youtube.com/watch?v=NuOVlyr-e1w</a><p>代码库:<a href="https://github.com/RealComputer/GlassKit" rel="nofollow">https://github.com/RealComputer/GlassKit</a><p>我最初尝试使用多模态大语言模型进行场景理解,但由于延迟和一致性不够理想,因此我转向了一个小型物体检测模型(微调的RF-DETR)。该模型仅在摄像头视频流上运行推理循环。这也使得设备本地/离线使用成为可能(目前仍通过本地服务器运行)。