返回首页
最新
嗨,HN,
我发现谷歌地图在我只想知道“那是什么建筑?”或“这里发生了什么?”时,常常显得过于杂乱。
为了解决这个问题,我简单地开发了一个小工具。它通过维基百科的API提供一个干净的界面,根据你的确切位置显示相关的文章。我在英国旅行时一直在使用它,发现它在寻找隐藏的宝藏方面非常有效。
目前这是一个简单的概念验证工具,但我希望能进一步扩展。如果你觉得它有用,或者在你的地点出现问题,请告诉我!
为什么苹果的语音转录如此糟糕?<p>即使在2到3年前,OpenAI的Whisper模型在离线状态下也能提供更好、几乎即时的语音转录,而该模型的大小仅约为500MB。在这样的背景下,很难理解苹果的转录服务为何在强大的在线服务器上表现如此糟糕。<p>以下是我刚刚使用iOS原生应用时的真实示例:<p>- “BigQuery update” → “bakery update”<p>- “GitHub” → “get her”<p>- “CI build” → “CI bill”<p>- “GitHub support” → “get her support”<p>这些并不是生僻词汇——它们都是软件领域中非常常见的词汇,在日常对话中清晰地表达出来。与几年前即使在完全离线的情况下所能达到的准确性相比,这种差距显得尤为明显。<p>这主要是模型质量问题、流媒体/分段问题、激进的后处理,还是苹果语音处理架构中的某种结构性问题?真正的技术限制是什么?尽管现代硬件和云处理技术已经存在,为什么转录服务仍未得到改善?
在我攻读理论物理博士学位期间,我花了相当多的时间研究椭圆边值问题。我意识到这些问题能够从相对低维的输入(边界形状和条件)中生成令人满意的空间模式。与此同时,我接触到了线积分卷积(LIC),它可以生成具有丰富微观结构的矢量场的极其美丽的可视化效果。
我发现将LIC与椭圆偏微分方程结合起来,可以为制作二维视觉艺术提供非常丰富的基础元素。因此,在过去几个月里,我与Opus 4.5一起努力,开发出一个完整的绘图程序。目前,我只支持泊松方程和双调和方程,尽管我计划添加其他一些物理模型,以产生有趣的图案(例如,金兹堡-朗道超导方程)。
Elliptica 仍处于alpha阶段,但正在积极开发中,应该可以使用。
嗨,HN
我最近结婚了,随即经历了一些情绪崩溃,决定锁自己在一个房间里,专心打造一段时间。
与此同时,我在为我的初创公司进行外部销售,但不断遇到同样的问题:我想要一个能够像人一样使用我电脑的自动化工具。点击用户界面、在应用之间复制粘贴、处理复杂的工作流程——不仅仅是API和网络钩子。
我找不到任何感觉合适的工具:
- 对消费者友好(非技术性)
- 本地优先
- 足够灵活以应对现实世界中的用户界面驱动任务
于是我挑战自己,看看能在多大程度上构建一个由AI驱动的开源桌面自动化应用。这就是Tasker。
在过去的2到3周里,我每天都在使用它来处理销售工作流程,而我的父亲则用它来帮助生成他HVAC(暖通空调)业务的估算。虽然还处于早期阶段(还需要扩展到通用操作系统),但它已经为我们在浏览器中的许多手动工作提供了替代方案。
有一件事变得非常明确:一个可以在定时任务上运行或通过HTTP触发的云/可部署版本将解锁许多使用场景。我还不太确定接下来该如何发展,但我想早点分享并获得反馈。
我很想听听大家的想法:
- 你们会信任这样的工具来处理哪些工作流程
- 桌面与云的权衡
- 在实践中哪些地方会出现问题
- 这是否感觉有用,还是让人感到害怕
代码库和文档已在网站上链接。