返回首页
最新
我大约在2.5年前创办了这家公司,并邀请了一位作为商业合伙人。他在产品的塑造上贡献颇多,而该产品是由我和一个2到3人的小团队共同开发的。他的时间投入有所不同——起初很少,但到最后每周最多达到40小时。主要问题是,在这2.5年里,他没有接触过任何投资者,而这正是他角色中的关键部分。我在他一年锁定期的45天前要求他辞职(协议是四年内获得20%股份)。对此意见不一——有人建议给他5%,也有人建议给0.5%。我正在努力确定一个公平的数额。
我有时在谷歌搜索Yarn问题时会看到yarnpkg.cn这个网站。这个网站是什么?顺便提一下,它的页脚有一个链接指向某个.gov.cn的网站。我从未见过其他类似的本地化Yarn网站。
我一直在与一个来自新加坡AWS的爬虫“Mozilla/5.0 (compatible; crawler)”斗争,它对我的一个域名发送了大量请求,平均每秒超过700个请求,持续了几个月。
幸运的是,CloudFlare能够通过简单的WAF规则和444响应来处理这些流量,从而减少出站流量。
我向AWS提交了几次投诉,希望能停止这种流量,他们的典型回复是:
我们已与客户进行了沟通,并根据这次沟通确定,报告的活动目前不需要AWS采取进一步行动。
我尝试了各种4XX响应,看看爬虫是否会退缩,也尝试了30X重定向(它会跟随),但都没有效果。
这种流量已经达到需要我重新与CloudFlare谈判合同的程度,并且在查看分析和日志时也造成了困扰。
我考虑将所有流量重定向到AWS的滥用报告页面,但在这种情况下,这实际上就像一个小型DDoS网络,发送到任何地方都可能被视为滥用。
有没有其他人有类似的经历?
我看到ChatGPT在数到一百万时失败,理由相当离谱,而用户也无法绕过这个问题。<a href="https://www.youtube.com/watch?v=djZVWc1PkIo" rel="nofollow">https://www.youtube.com/watch?v=djZVWc1PkIo</a>。
我和我的朋友尝试了几种变体来让它开始数到一百万,但都失败了。于是我们决定尝试看看能达到的最大数字。
我们尝试的方法包括:
- 将其框架设定为实验,挑战其他大型语言模型或它之前的表现,在小成功后给予鼓励。
- 逐步引导 - 先让它数到10、20、30、50等,算是有点成功,记录到110。
而最终的赢家是:
- 我们自己数到140,然后让它重复 - 成功!但后续的尝试惨败。没有再尝试更高的数字,因为遇到了每日限制 :D
有谁尝试过这个吗?你们能数到多高?到目前为止,我们在YouTube和谷歌上没有找到有人能超过140的记录。
来挑战我们吧。
你好,Hacker News!我们上线了!
我非常激动地宣布,YTVidHub终于正式推出了!这个工具旨在解决许多人在这里分享的一个巨大时间浪费问题:从大型YouTube语料库中手动下载转录文本的痛苦过程,特别是用于研究和数据分析。
问题:如果你需要为50、100个或更多视频获取字幕,目前的复制-粘贴-下载-重复的工作流程既缓慢又痛苦。
我们的解决方案(核心功能):YTVidHub专为真正的批量处理而设计。你可以将数十个YouTube网址(或播放列表/频道链接)粘贴到一个简洁的界面中,系统会提取所有可用的字幕(包括多语言自动语音识别),并将它们打包成一个有序的ZIP文件,方便一键下载。
架构洞察:我们的设计优先考虑“研究就绪”的数据,借鉴了这里HN的讨论。我们特别优化了纯文本(TXT)输出——去除了所有时间戳和格式,使其能够立即适用于RAG系统和LLM的处理。
商业模式:YTVidHub对于单次下载是免费的。批量操作每天提供5个免费积分,以确保公平使用并管理我们的处理成本。对于高容量数据需求,我们提供专业计划。
未来重点:我们知道自动语音识别的准确性是下一个大挑战。我们已经在开发一个专业的AI转录层,以提供高准确度、基于LLM的转录文本,解决小众内容和数据质量问题。
请试用我们的批量下载器,体验系统的性能。你对速度和TXT输出整洁度的任何反馈对我们的工程路线图都极为重要!
感谢你与我们共同建设。