1作者: ryan_seq5 个月前原帖
我创建了 dataframe-expectations 来解决一个我经常遇到的问题:如何在不每次重写验证逻辑或与复杂设置作斗争的情况下验证 pandas 和 PySpark DataFrame。 <p>主要特点: - 单一 API,适用于 pandas 和 PySpark DataFrame - 依赖性最小(不会使 Docker 镜像臃肿或减慢构建速度) - 基于装饰器的验证,自动检查函数输出 - 基于标签的过滤,可以根据环境、优先级或其他任何标准运行特定的验证 - 可重用的期望定义,适用于整个代码库 <p>该库轻量且易于集成到现有的 CI/CD 流水线中,帮助您在生产之前捕获数据质量问题。 <p>链接: • PyPI: <a href="https://pypi.org/project/dataframe-expectations/" rel="nofollow">https://pypi.org/project/dataframe-expectations/</a> <p>• GitHub: <a href="https://github.com/getyourguide/dataframe-expectations" rel="nofollow">https://github.com/getyourguide/dataframe-expectations</a> <p>• 文档: <a href="https://code.getyourguide.com/dataframe-expectations/" rel="nofollow">https://code.getyourguide.com/dataframe-expectations/</a> <p>该项目仍处于早期阶段,我非常希望听到您的反馈并回答任何问题!
2作者: aiqbal5 个月前原帖
我在想如何说服安德烈·卡帕斯基或一些真正杰出的科技自由电子领军人物加入你的初创公司。有没有人做到过这一点?你们是通过什么过程实现的?我真的很想知道!