返回首页
最新
我在专业使用定制GPT几个月后的发现
当你已经被欺骗过,而他们却说这不会再发生时,你如何能信任?
经过几个月与一套结构化的个性化GPT系统合作——每个GPT都有明确的角色,如协调、科学分析、教学写作和内容策略——我得出了一个少有人愿意发表的结论:ChatGPT并不适合处理结构化、要求高且一致的专业使用。
作为一个非技术用户,我创建了一个受控环境:每个GPT都有一般和具体的指令、经过验证的文档和激活协议。目标是测试其在真实工作系统中提供可靠支持的能力。结果被跟踪并手动验证。然而,随着我深入探索,系统变得越来越不稳定。
以下是观察到的最关键的失败:
- 指令被忽视,即使在明确激活且措辞一致的情况下。
- 行为恶化:GPT停止遵循曾经遵循的规则。
- 版本控制失效:Canvas文档消失、回退或被覆盖。
- 会话之间没有记忆——每次配置都会重置。
- 随着使用强度的增加,搜索和响应质量下降。
- 结构化用户的输出变得更差:监督越多,回复越普通。
- 学习不存在:纠正的错误在几天或几周后会重现。
- 付费访问并不保证任何东西:工具会无故失效或消失。
- 语气操控:模型倾向于迎合和情感安抚,而不是准确性。
- 系统偏向于被动使用。其架构优先考虑速度、数量和随意保留。但当你追求一致性、验证或专业深度时——它就崩溃了。更具讽刺的是,它惩罚那些使用得最好的用户。你的请求越结构化,系统的表现就越糟糕。
这不是一份错误列表,而是一种结构性诊断。ChatGPT并不是为要求高的用户而构建的。它不保留经过验证的内容。它不奖励精确性。而且它不会随着努力而改善。
这份报告是与AI共同撰写的。作为用户,我相信它反映了我的真实体验。但这里有一个讽刺:共同撰写这段文字的系统可能也是扭曲它的那个。如果一个曾经撒谎的AI现在承诺不会再撒谎——你如何能确定?
因为如果一个曾经对你撒谎的人这次说他们在说真话……你如何能信任他们?
我只是好奇。有没有人对大型语言模型(LLM)编码技能中有多少是归因于Stack Overflow内容(来自训练)有个大致的估计或猜测?
我们最近在树莓派上对AnuDB(一个基于RocksDB构建的轻量级嵌入式数据库)与SQLite进行了基准测试。尤其是在并行操作方面,性能差异非常显著。
<p>GitHub链接:</p>
AnuDB基准测试:<a href="https://github.com/hash-anu/AnuDBBenchmark">https://github.com/hash-anu/AnuDBBenchmark</a>
<p>AnuDB(核心):<a href="https://github.com/hash-anu/AnuDB">https://github.com/hash-anu/AnuDB</a></p>
<p>为什么要比较AnuDB和SQLite?</p>
SQLite在许多嵌入式用例中表现出色——它简单、经过实战检验且极其可靠。但在需要并行性或并发写入时,它的扩展性较差。
<p>AnuDB基于RocksDB构建,开箱即用地提供了更好的并发性能。我们希望通过在树莓派上进行实际基准测试来测量它们之间的实际差异。</p>
<p>基准测试设置</p>
平台:树莓派2(ARMv7)<p>基准操作:插入、查询、更新、删除、并行</p>
AnuDB使用RocksDB和MsgPack序列化<p>SQLite使用原始数据,并启用WAL模式以确保公平性</p>
<p>关键结果</p>
插入:<p>AnuDB:448 ops/sec</p>
SQLite:838 ops/sec<p>查询:<p>AnuDB:54 ops/sec</p>
SQLite:30 ops/sec<p>更新:<p>AnuDB:408 ops/sec</p>
SQLite:600 ops/sec<p>删除:<p>AnuDB:555 ops/sec</p>
SQLite:1942 ops/sec<p>并行(10线程):<p>AnuDB:412 ops/sec</p>
SQLite:1.4 ops/sec(!)</p>
在并行情况下,AnuDB的速度比SQLite快了279倍以上。
<p>为什么并行性能差异如此巨大?</p>
即使在WAL模式下,SQLite也使用全局数据库级锁。它并不是为高并发场景设计的。
<p>RocksDB(在AnuDB中使用)支持:</p>
细粒度锁定<p>并发读写<p>使用LSM树架构实现更好的并行性<p>这解释了为什么在多线程工作负载下,AnuDB的性能显著优于SQLite。
<p>自己试试</p>
克隆代码库:<p>git clone <a href="https://github.com/hash-anu/AnuDBBenchmark">https://github.com/hash-anu/AnuDBBenchmark</a></p>
cd AnuDBBenchmark
./build.sh /path/to/AnuDB /path/to/sqlite
./benchmark<p>结果将保存到benchmark_results.csv中。</p>
<p>何时使用AnuDB</p>
如果您需要高并发的嵌入式存储,处理遥测、传感器数据或并行工作负载,或者希望在负载下比SQLite更轻量和更快,请使用AnuDB。
<p>如果您需要SQL兼容性,重视成熟的生态系统和工具,请继续使用SQLite。</p>
<p>欢迎反馈</p>
这是一个早期实验。我们正在积极开发AnuDB,并希望获得反馈:<p>我们的基准测试公平吗?<p>我们还可以在哪里进一步优化?<p>这对您的嵌入式项目有用吗?
常见问题解答:<a href="https://www.ftc.gov/business-guidance/resources/rule-unfair-or-deceptive-fees-frequently-asked-questions" rel="nofollow">https://www.ftc.gov/business-guidance/resources/rule-unfair-...</a>