返回首页
最新
作为一名数据工程师,我常常在思考为什么这么多公司不对他们的Spark作业进行单元测试。在我的经验中,主要原因有以下几点:
- 创建DataFrame的测试数据(数据和模式)耗时过长
- 跨多个表进行调试比较复杂
- 样板代码冗长且重复
为了应对这些痛点,我开发了PyBujia,这是一个框架,能够:
- 让你使用Markdown定义表的测试数据,以便于DataFrame的创建、调试和可读性。
- 泛化样板代码,节省设置时间
这使得测试Spark作业变得更加简单,现在我可以进行测试驱动开发(TDD),我希望这也能帮助其他数据工程师。欢迎反馈!
我厌倦了无休止的PR审核和对遗漏安全漏洞的持续担忧,因此我创建了Shieldcode。
它的功能:
- 自动扫描新的拉取请求中的漏洞和安全隐患
- 在GitHub上直接评论,提供清晰、可操作的反馈
- 开箱即用,无需复杂的设置
接下来:NPM VScan,它将在每次推送时检查你的npm依赖项是否存在漏洞或恶意软件。
我很想听听你的想法和反馈!
<a href="https://shieldcode.space" rel="nofollow">https://shieldcode.space</a>