2作者: johnzakkam11 个月前原帖
我参加过几次风险投资会议,注意到一个规律:朋友和顾问在评审商业计划书时过于客气。他们往往忽视了风险投资者实际会提出的尖锐问题。 我在考虑开发一个工具,根据你的商业计划书生成现实的风险投资问题,比如“你的市场规模计算不合理”或“为什么大公司不能复制这个?” 这真的是其他创始人面临的问题吗?在投资者会议之前,你们目前是如何获得诚实的商业计划反馈的?
1作者: Motiftech11 个月前原帖
嗨,HN, 我们是Motif Technologies,一家位于韩国的初创公司,我们开发了一种新的小型语言模型,参数量为26亿。我们希望与社区分享这一成果。 我们注意到,韩国开发的语言模型(LLM)通常使用的基准测试不够标准化,这使得比较变得困难。 实际上,现在大家都知道,仅凭基准分数无法全面代表一个LLM的能力。基准测试常常受到“污染”,而实际使用情况可能与数字所暗示的相去甚远。然而,它们仍然是我们比较模型时最易获得和高效的工具之一。 因此,看到许多主要科技公司在基准报告中存在如此多的矛盾,虽然令人失望,但也许并不意外。 以下是几个例子: - 在Phi-3的技术报告中,Mistral 7B的5-shot WinoGrande得分为54.2。 - 在阿里巴巴的Qwen 2.5报告中,同一模型在同一基准上的得分为78.4。 - 与此同时,Mistral自己的报告中仅包含0-shot WinoGrande的结果。 - Phi-3报告了5-shot HellaSwag,而Qwen 2.5使用的是10-shot。 我们发现的三个反复出现的问题: 1. 基准列表不一致。 2. 配置(如shot数量)常常不同。 3. 即使两者相同,得分也不匹配。 我们在评估自己的模型时尽量做到透明和一致,希望生态系统中的其他人也能如此。我们非常期待您对我们方法的反馈。
1作者: yoeven11 个月前原帖
开发者是否希望有一个单一的API,能够自动路由到最适合他们目标的语言模型,同时内置一些基本工具,比如网页抓取、网页搜索等?<p>还是说开发者更希望拥有更多的控制权,比如像LangChain/Ai SDK那样,能够更方便地更换模型,但基本上需要自己构建链条?<p>你们怎么看?