大家好,
作为一名创始人,我多年来一直对我的团队如何管理机器学习数据集感到沮丧。最终结果总是变成一个名为 data_final_v3_fixed.csv 的文件,存放在 S3 桶中,或者是一个庞大的 Git LFS 文件,没人能理解。
因此,我构建了 Shodata。它是一个开放平台(类似于 GitHub),但专门为数据集工作流程而设计。
核心理念很简单:你上传一个文件。当你上传一个同名的新文件时,会自动创建一个新版本(v2、v3 等)。每个数据集都有一个讨论板、完整的历史记录,以及每个版本的清晰预览和统计信息。
为了展示它是如何工作的,我用一个我正在跟踪的数据集进行了初始化:一个关于大型语言模型(LLM)幻觉的日志。当我发现新的幻觉时,我只需上传新文件,它就会对数据集进行版本更新。
这个平台是一个最小可行产品(MVP)。它有一个慷慨的免费套餐(包括 3 个个人私有数据集和 10GB 存储空间),还有一个单一的专业计划,解锁团队/组织功能(如组织创建和共享私有数据集)。
我希望从同行工程师和机器学习领域的朋友那里获得关于工作流程的反馈。这有用吗?还有什么缺失的?
你可以在这里查看平台: [https://shodata.com](https://shodata.com)
以及 LLM 日志数据集: [https://shodata.com/shodata/llm-hallucinations](https://shodata.com/shodata/llm-hallucinations)
返回首页
最新
嗨,HN
我是一名独立开发者,正在构建 CommoWatch,这是一款简约的网络应用,用于跟踪商品价格,并在价格达到您的目标时发送提醒。
这个想法很简单:
- 您选择关注的商品(黄金、石油、小麦、天然气等)
- 您设置希望收到通知的价格
- 当价格达到时,您会收到电子邮件或短信提醒。
这个应用旨在紧凑、快速,并且对交易者、投资者,甚至是关注原材料成本的小企业主都很有用。
我从小规模开始——首先只关注几个商品,提供每小时更新和电子邮件提醒——以验证人们是否真的觉得它有用。
如果这听起来有趣,您可以在这里加入候补名单:
<a href="https://getwaitlist.com/waitlist/31756" rel="nofollow">https://getwaitlist.com/waitlist/31756</a>
我很想听听您的想法:
什么功能能让这个应用对您真正有用?
或者您认为大多数关注商品价格的人实际上需要什么?
谢谢!
一个免费的,无需注册的AI标语生成器——这是我的第二个AI编程项目。当我在工作中需要一个吸引人的标语或团队名称时,我只需让AI为我生成一个。如果你需要,欢迎试用!任何反馈都非常欢迎,我会虚心接受。<p>未来的更新将包括根据你的品牌和标语生成海报和标志的功能,并且这些将附带额外积分。https://aislogangenerator.org/
英国供应商声称“100%可再生”,即使在夜间销售化石能源。<p>新推出的非营利组织匹配清洁电力指数[1]利用开放数据,逐小时显示每个供应商的真实可再生能源比例。<p>该指数由一小组工程师和能源分析师构建,其中包括一位前特斯拉工程师,结合了来自Elexon(需求)、国家电网ESO(发电)和Ofgem(可再生能源保证证书)的半小时数据,计算出每个主要英国供应商的真实可再生能源比例。这是首个此类开放数据集[2]。<p>这些数据揭示了每年10亿英镑的扭曲:消费者为与清洁供应不匹配的“绿色”证书付费。重新引导这些资金可以用于储能和灵活性。<p>最佳供应商将69%至88%的需求与实时可再生能源匹配——远远超过今天所称的“100%”。<p>我们希望听到您对以下内容的看法:<p>- 下一步功能/数据集:储能、核能或二氧化碳强度?<p>- API设计:哪些端点或更新频率会有用?<p>- 可视化:您将如何展示可再生能源的匹配情况?<p>[1] <a href="https://matched.energy/clean-power-index" rel="nofollow">https://matched.energy/clean-power-index</a><p>[2] <a href="https://matched.energy/methodology/v1" rel="nofollow">https://matched.energy/methodology/v1</a>
我对那些产生不一致术语和不自然表达的AI翻译工具感到沮丧。因此,我开发了Jta,这是一款命令行工具,AI不仅仅是翻译——它通过“自主反思”来批评和改进自己的工作。
Jta采用了一个三步循环,而不是一次性翻译:
1. 翻译
2. AI评估自己的工作(准确性、流畅性、风格、术语)
3. AI应用自己的建议进行改进
权衡之处在于需要进行三次API调用,但质量显著提升。对于我们的生产国际化文件,这消除了我们过去约90%的手动修正。
GitHub: https://github.com/hikanner/jta