返回首页
最新
自八月份以来,我一直在运行一个评分系统,跟踪并排名在arXiv上发布的每一篇与人工智能相关的新论文。其目标是识别真正的研究事件,即推动该领域发展的内容,同时过滤掉常见的噪音和未经证实的上传。
每篇论文都通过评分算法进行评估。该系统随后存储带有结构化字段的嵌入,如问题、方法、解决方案和结果,以便后续检索。
搜索基于一种混合模型:它结合了语义嵌入和元数据,如标题、主题、作者和提取的关键词。查询返回与给定概念最相关且在技术上最有意义的论文。
截至目前(自八月份以来),数据看起来稳定,评分与专家策划的列表出奇地一致。所有这些都可以通过免费的网络界面和API访问。
这对日常使用是否有帮助?
嘿,HN,
我是一名钢琴家,一直对理解优秀演奏者如何思考和声充满热情。他们使用了什么和声?他们是如何在和声变化中引导音符的?他们的手下究竟发生了什么?
在2022年,我开发了Harmonic Analyzer([链接](https://www.youtube.com/watch?v=iNgSgvUmiOs))——一款使用机器学习技术转录复音钢琴录音的Mac应用。它获得了一些关注,但我从未完全完成它。要求用户下载Mac应用程序感觉像是多余的障碍,我也不想将分发限制在Mac用户中。
我刚刚发布了Pianolyze([链接](https://pianolyze.com)),这是一个完全重写的版本,完全在浏览器中运行。
技术栈:
- 使用ONNX Runtime托管字节跳动的钢琴转录模型([链接](https://github.com/qiuqiangkong/piano_transcription_inference))
- 使用Web Workers进行异步转录,通过Comlink暴露
- 使用WebGL进行钢琴卷的渲染
- 使用Web Audio API进行播放
- 使用IndexedDB进行模型缓存
- 使用React + MobX State Tree
所有操作都在您的设备上完成。没有服务器,没有上传,也没有推理成本。
试试吧:只需拖放任何独奏钢琴录音(MP3、WAV、FLAC、M4A)。模型下载一次(约100MB),然后一切都在本地运行。它在独奏录音中效果最佳;伴奏可能会让模型感到困惑。Chrome和Safari在桌面上效果最佳。
我非常希望能收到关于用户体验、不同硬件上的性能以及它如何处理各种录音的反馈。同时也乐意讨论技术方案。
这是它的实际应用,转录伟大的穆尔格·米勒:[链接](https://www.youtube.com/watch?v=sWW-Z9_n8Mk)
作者在此。pydoll 是我从基础原理出发,基于 asyncio 构建的现代 Python 自动化库的尝试。我的主要目标是创建一个 100% 类型安全的 API,以应对混乱的 Chrome DevTools 协议。
这是一项庞大的工程,涉及将整个协议映射到 Python 的 TypedDict,这样用户在每个命令和事件上都能获得完整的 IDE 自动补全。我在这里写了关于这种类型安全架构的内容:<a href="https://pydoll.tech/docs/deep-dive/fundamentals/typing-system/" rel="nofollow">https://pydoll.tech/docs/deep-dive/fundamentals/typing-syste...</a>
这种设计对于构建高级规避功能是必要的。为此,我首先需要理解现代机器人检测的实际工作原理,这让我深入研究了相关领域。结果是一本关于多层指纹识别的完整技术百科全书,我将其作为文档的一部分分享:<a href="https://pydoll.tech/docs/deep-dive/fingerprinting/" rel="nofollow">https://pydoll.tech/docs/deep-dive/fingerprinting/</a>
核心论点是,现代规避并不是关于随机性,而是关于整个堆栈的完美一致性。pydoll 是我基于这一论点构建的工具。它是开源的,我非常希望能收到关于 asyncio 架构、类型安全 API 或研究本身的任何技术反馈。