我知道听起来像我是一位自学的“提示工程师”,但实际上我花了一些时间学习编程。我犯的一个错误是过于专注于学习不同的框架和语法等。然而,仅仅学习语法而不解决问题是无法持续编程的。因此,我也学了一些问题解决的知识。但当我发现不仅AI在语法上比我强,在问题解决上也是如此时,这让我感到非常沮丧(不过我有时能发现它们的错误,但总体上它们确实比我强)。而且它们的能力正在迅速提升。最近我不再学习太多新的编程知识。例如,今天我使用了束搜索(beam search),却不知道它是什么以及如何运作,我知道这是一种我很少会再次使用的东西,而且显然我是在使用AI。你见过那个梗吗?有人说“我在10分钟内做了这个网站”,然后发了一个本地地址的链接?这似乎想告诉我们,仅仅使用AI是行不通的。但如果有人掌握了非常基础、一般的知识,他们能否和那些真正能编程的人一样好,而不依赖AI呢?(我不是在谈论我自己,我仍在学习,永远都会学习)。所以我认为更好的选择似乎是专注于提示AI,寻找好的创意和想法,而减少编程的时间!?(别评判我,我喜欢编程。或者说我曾经喜欢过。有时我仍然喜欢)。我知道如果我这么容易就感到沮丧并考虑放弃,那我最好还是放弃(老实说,我并不这样想,但如果你谈论放弃,这就是你得到的答案)。我不想放弃。我只是想知道,如果有人问我这个,我该怎么回答。此外,我也不知道这是否是提问和讨论的合适地方?
返回首页
最新
有一天,我在下班回家的路上,想知道我们认识多少个在罗马时代生活过的人名。经过一番搜索,我找到了关于执政官和官员的名单,但没有涉及普通人,甚至大多数像自由人和奴隶这样的人的信息。因此,我最终建立了一个处理超过50万条拉丁铭文的管道,这些铭文来自于克劳斯-斯拉比铭文数据库(Epigraphic Database Clauss-Slaby)<a href="https://edcs.hist.uzh.ch/en/" rel="nofollow">https://edcs.hist.uzh.ch/en/</a>,并提取出人名(并尝试对其进行聚类,但这仍在进行中)。
有一些数据库,古典学者们为特定地区手动完成了类似的工作,比如Trismegistos <a href="https://www.trismegistos.org/" rel="nofollow">https://www.trismegistos.org/</a>和罗马帝国拉丁铭文(LIRE)<a href="https://pure.au.dk/portal/en/publications/latin-inscriptions-of-the-roman-empire-lire/" rel="nofollow">https://pure.au.dk/portal/en/publications/latin-inscriptions...</a>是我发现的两个主要项目。但似乎没有一个项目是我所设想的那样,尽管我在某些地方读到过这被认为是可能的。
我不是古典学者,也不是网络开发者,但我有Claude和Gemini,并且能基本阅读拉丁文——所以我开始着手工作。我使用LIRE和另一个数据库作为基础数据,建立了一个管道来提取和处理铭文,以恢复人名。我开发的过程使用了高端的语言模型(LLM),如Sonnet或Gemini Pro,来监督提取和调整过程,直到明显的错误率合理为止。到目前为止,我认为合理的标准是在100-500的小样本中,错误率低于1-2%,且没有观察到系统性问题。不同地区通常需要不同的提示,因此这基本上变成了一个让高级AI为低级AI调整提示的练习。与LIRE相比,提取的结果F1分数在0.64到0.87之间,但对此要持保留态度。
完成了几个地区的工作后,我想看看成果,于是简单搭建了一个粗糙的网站,但由于我不是网络开发者,访问数据的方式比较原始。网站看起来不错,我还为每个条目添加了摘要和机器翻译。我希望最终能得到真正的古典学者团队的反馈,并使网站更好地运行,因此我正在重写它,目前网站功能大致正常,虽然还有一些小问题,但与旧版相比性能有了显著提升。所有条目都链接回正确的来源,而旧的网络应用程序链接了多个数据存在的额外来源,但我还没有在新版本中重新实现这一点。(旧的网页界面仍然可以在<a href="https://roman-names.com" rel="nofollow">https://roman-names.com</a>访问,但我得提醒你,它的使用体验比较笨重,且完全不适合移动设备)
到目前为止的主要发现:
AI监督的AI提取为我节省了时间。我曾经手动调整了一段时间,然后我将运行手册变成了一个我输入指令的想法,让大型AI在我稀疏的监督下进行。
当我将原始文本(包括标记)输入模型时,提取效果显著提高(约提高了10个F1分数),而不是使用清理过的文本版本。
我觉得这是一个很酷的小项目,想和大家分享。如果你恰好在相关领域工作,有什么我可以做得更好的地方,请告诉我。