1作者: throwaway290大约 1 个月前原帖
我有时在谷歌搜索Yarn问题时会看到yarnpkg.cn这个网站。这个网站是什么?顺便提一下,它的页脚有一个链接指向某个.gov.cn的网站。我从未见过其他类似的本地化Yarn网站。
4作者: lgats大约 1 个月前原帖
我一直在与一个来自新加坡AWS的爬虫“Mozilla/5.0 (compatible; crawler)”斗争,它对我的一个域名发送了大量请求,平均每秒超过700个请求,持续了几个月。 幸运的是,CloudFlare能够通过简单的WAF规则和444响应来处理这些流量,从而减少出站流量。 我向AWS提交了几次投诉,希望能停止这种流量,他们的典型回复是: 我们已与客户进行了沟通,并根据这次沟通确定,报告的活动目前不需要AWS采取进一步行动。 我尝试了各种4XX响应,看看爬虫是否会退缩,也尝试了30X重定向(它会跟随),但都没有效果。 这种流量已经达到需要我重新与CloudFlare谈判合同的程度,并且在查看分析和日志时也造成了困扰。 我考虑将所有流量重定向到AWS的滥用报告页面,但在这种情况下,这实际上就像一个小型DDoS网络,发送到任何地方都可能被视为滥用。 有没有其他人有类似的经历?
4作者: bra1ndump大约 1 个月前原帖
我看到ChatGPT在数到一百万时失败,理由相当离谱,而用户也无法绕过这个问题。<a href="https://www.youtube.com/watch?v=djZVWc1PkIo" rel="nofollow">https://www.youtube.com/watch?v=djZVWc1PkIo</a>。 我和我的朋友尝试了几种变体来让它开始数到一百万,但都失败了。于是我们决定尝试看看能达到的最大数字。 我们尝试的方法包括: - 将其框架设定为实验,挑战其他大型语言模型或它之前的表现,在小成功后给予鼓励。 - 逐步引导 - 先让它数到10、20、30、50等,算是有点成功,记录到110。 而最终的赢家是: - 我们自己数到140,然后让它重复 - 成功!但后续的尝试惨败。没有再尝试更高的数字,因为遇到了每日限制 :D 有谁尝试过这个吗?你们能数到多高?到目前为止,我们在YouTube和谷歌上没有找到有人能超过140的记录。 来挑战我们吧。
1作者: Franklinjobs617大约 1 个月前原帖
你好,Hacker News!我们上线了! 我非常激动地宣布,YTVidHub终于正式推出了!这个工具旨在解决许多人在这里分享的一个巨大时间浪费问题:从大型YouTube语料库中手动下载转录文本的痛苦过程,特别是用于研究和数据分析。 问题:如果你需要为50、100个或更多视频获取字幕,目前的复制-粘贴-下载-重复的工作流程既缓慢又痛苦。 我们的解决方案(核心功能):YTVidHub专为真正的批量处理而设计。你可以将数十个YouTube网址(或播放列表/频道链接)粘贴到一个简洁的界面中,系统会提取所有可用的字幕(包括多语言自动语音识别),并将它们打包成一个有序的ZIP文件,方便一键下载。 架构洞察:我们的设计优先考虑“研究就绪”的数据,借鉴了这里HN的讨论。我们特别优化了纯文本(TXT)输出——去除了所有时间戳和格式,使其能够立即适用于RAG系统和LLM的处理。 商业模式:YTVidHub对于单次下载是免费的。批量操作每天提供5个免费积分,以确保公平使用并管理我们的处理成本。对于高容量数据需求,我们提供专业计划。 未来重点:我们知道自动语音识别的准确性是下一个大挑战。我们已经在开发一个专业的AI转录层,以提供高准确度、基于LLM的转录文本,解决小众内容和数据质量问题。 请试用我们的批量下载器,体验系统的性能。你对速度和TXT输出整洁度的任何反馈对我们的工程路线图都极为重要! 感谢你与我们共同建设。