返回首页
最新
有一天,我在下班回家的路上,想知道我们认识多少个在罗马时代生活过的人名。经过一番搜索,我找到了关于执政官和官员的名单,但没有涉及普通人,甚至大多数像自由人和奴隶这样的人的信息。因此,我最终建立了一个处理超过50万条拉丁铭文的管道,这些铭文来自于克劳斯-斯拉比铭文数据库(Epigraphic Database Clauss-Slaby)<a href="https://edcs.hist.uzh.ch/en/" rel="nofollow">https://edcs.hist.uzh.ch/en/</a>,并提取出人名(并尝试对其进行聚类,但这仍在进行中)。
有一些数据库,古典学者们为特定地区手动完成了类似的工作,比如Trismegistos <a href="https://www.trismegistos.org/" rel="nofollow">https://www.trismegistos.org/</a>和罗马帝国拉丁铭文(LIRE)<a href="https://pure.au.dk/portal/en/publications/latin-inscriptions-of-the-roman-empire-lire/" rel="nofollow">https://pure.au.dk/portal/en/publications/latin-inscriptions...</a>是我发现的两个主要项目。但似乎没有一个项目是我所设想的那样,尽管我在某些地方读到过这被认为是可能的。
我不是古典学者,也不是网络开发者,但我有Claude和Gemini,并且能基本阅读拉丁文——所以我开始着手工作。我使用LIRE和另一个数据库作为基础数据,建立了一个管道来提取和处理铭文,以恢复人名。我开发的过程使用了高端的语言模型(LLM),如Sonnet或Gemini Pro,来监督提取和调整过程,直到明显的错误率合理为止。到目前为止,我认为合理的标准是在100-500的小样本中,错误率低于1-2%,且没有观察到系统性问题。不同地区通常需要不同的提示,因此这基本上变成了一个让高级AI为低级AI调整提示的练习。与LIRE相比,提取的结果F1分数在0.64到0.87之间,但对此要持保留态度。
完成了几个地区的工作后,我想看看成果,于是简单搭建了一个粗糙的网站,但由于我不是网络开发者,访问数据的方式比较原始。网站看起来不错,我还为每个条目添加了摘要和机器翻译。我希望最终能得到真正的古典学者团队的反馈,并使网站更好地运行,因此我正在重写它,目前网站功能大致正常,虽然还有一些小问题,但与旧版相比性能有了显著提升。所有条目都链接回正确的来源,而旧的网络应用程序链接了多个数据存在的额外来源,但我还没有在新版本中重新实现这一点。(旧的网页界面仍然可以在<a href="https://roman-names.com" rel="nofollow">https://roman-names.com</a>访问,但我得提醒你,它的使用体验比较笨重,且完全不适合移动设备)
到目前为止的主要发现:
AI监督的AI提取为我节省了时间。我曾经手动调整了一段时间,然后我将运行手册变成了一个我输入指令的想法,让大型AI在我稀疏的监督下进行。
当我将原始文本(包括标记)输入模型时,提取效果显著提高(约提高了10个F1分数),而不是使用清理过的文本版本。
我觉得这是一个很酷的小项目,想和大家分享。如果你恰好在相关领域工作,有什么我可以做得更好的地方,请告诉我。
FLI的初始发布 - 一个非常小巧且快速的目录列表工具。<p><i>初衷:</i>需要一个易于阅读的类似<i>ls</i>的工具,以便通过SSH在树莓派上使用。<i>当前目的:</i>检查使用Rust是否可以构建更快、更小的核心工具。<p>- 大小:<br>18K - 树莓派ZERO W <br>51KB - Mac<p>- 默认模式将readdir()的输出流直接发送到stdout,且没有堆内存分配。<p>- 由于使用(和)代替文本着色,具有良好的可读性。<p>- 使用no_std Rust和libc编写。<p>代码库: https://github.com/tracyspacy/fli
嗨,HN,我是贾里德。从2020年开始,我一直在构建数据工具。先是Polyture,然后是AskEdith,现在是Athenic:用自然语言提问,获取图表/仪表板,然后进行自动化。可以连接Postgres、Salesforce、Google Ads等各种数据源。
对于那些说“只需将Claude链接到你的数据库”的人:想象一下在商业环境中出现的定义和分析冲突所带来的混乱。
问“我们的收入是多少?”两次,间隔两天或对不同的模型提问。你无法保证得到相同的结果。现在想象一下把这个问题交给你公司里所有非技术用户。
这不是模型的问题。我们是通过艰难的方式学到这一点的。当我们在2022年推出AskEdith时,你告诉我们(<a href="https://news.ycombinator.com/item?id=33435361">https://news.ycombinator.com/item?id=33435361</a>):“你仍然需要检查SQL”,“信任是最重要的”,“答案不会一致”。你们说得对。
现在,Athenic在语义模型中确定性地定义关键绩效指标(KPI)和公式。语义模型由模块化、可组合的单元组成,可以进行复杂分析,同时保证确定性和准确性。大型语言模型(LLM)唯一的责任是解释你的问题(即使是非技术用户也可以进行双重检查)。
`revenue = sum(order_total − refunds) where status = 'completed'`
询问收入时,每个人每次都能得到相同的数字。
经过三年的学习,与顶尖初创公司和财富500强企业合作后,我们刚刚发布了2.0版本。通过聊天获取洞察,此外还有定期运行的仪表板和自动化功能,结果会发送到你的电子邮件。告诉我们我们错了。