1作者: martinald10 个月前原帖
我已经非常习惯使用“大型”语言模型来分析PDF文件。 现在,llama.cpp支持视觉功能;我在本地(通过LM Studio)尝试了PDF文件,但结果并没有我预期的那么好。有一次,它坚持说无法进行“光学字符识别”(OCR),但却给了我一个数据可能是什么样子的示例——实际上就是数据本身。 另一个主要问题是,有时PDF实际上是由图像组成的;在处理这些文件时,它也变得非常困惑。 鉴于这一切都是如此新颖,我很难找到任何可以简化这个过程的工具。
1作者: ShivamHacks10 个月前原帖
我开发了一个人工智能代理,可以进行移动应用的质量保证(QA),这是在谷歌工作多年并等待几周才能得到QA结果后实现的。它在真实设备上运行,并使用多个代理(包括计算机使用)进行类似人类的测试。很高兴回答任何问题,希望它能帮助应用开发者更快地发布无bug的产品!