1作者: jpgerek2 个月前原帖
作为一名数据工程师,我常常在思考为什么这么多公司不对他们的Spark作业进行单元测试。在我的经验中,主要原因有以下几点: - 创建DataFrame的测试数据(数据和模式)耗时过长 - 跨多个表进行调试比较复杂 - 样板代码冗长且重复 为了应对这些痛点,我开发了PyBujia,这是一个框架,能够: - 让你使用Markdown定义表的测试数据,以便于DataFrame的创建、调试和可读性。 - 泛化样板代码,节省设置时间 这使得测试Spark作业变得更加简单,现在我可以进行测试驱动开发(TDD),我希望这也能帮助其他数据工程师。欢迎反馈!
1作者: ge0rg3e2 个月前原帖
我厌倦了无休止的PR审核和对遗漏安全漏洞的持续担忧,因此我创建了Shieldcode。 它的功能: - 自动扫描新的拉取请求中的漏洞和安全隐患 - 在GitHub上直接评论,提供清晰、可操作的反馈 - 开箱即用,无需复杂的设置 接下来:NPM VScan,它将在每次推送时检查你的npm依赖项是否存在漏洞或恶意软件。 我很想听听你的想法和反馈! <a href="https:&#x2F;&#x2F;shieldcode.space" rel="nofollow">https:&#x2F;&#x2F;shieldcode.space</a>