Testez vos data pipelines !

13/10/2022 : 15:45 - 17:30 | Formation | Stephanie Baltus-Bergamo

Les tests unitaires et d’intégration font partie intégrante de la vie des backend ou frontend engineers. Le Test Driven Development (TDD)) commence même à devenir une habitude. Pourtant, chez les data engineers c’est une toute autre histoire : la pratique n’est pas automatique, peu répandue alors que nous développons bien du logiciel.

Le logiciel évolue chaque jour et qui dit évolution, dit introduction de bug ! Notre vie de data engineer ne serait-elle pas plus simple si nous pouvions nous assurer très rapidement de la qualité de nos pipelines ?

Que ce soit en python, en java, en scala, les outils existent pourtant pour tester le code de transformations de données. Alors, si vous voulez prendre soin de votre futur logiciel en rendant vos pipelines plus robustes, cet atelier est fait pour vous !

Je vous propose de développer ensemble, des pipelines testées, facile à faire évoluer et de vous aider à vous orienter vers du TDD. Pour cela nous utiliserons :

Python
Poetry pour le build & la gestion de dépendances
Apache Airflow pour orchestrer nos pipelines
unitest pour les test unitaires
Docker & testscontainer pour les tests d'intégration
great_expectation pour les tests de qualité de la donnée

Un repository git sera mis à disposition peu avant l’atelier, contenant notamment les dépendances nécessaires et un squelette de projet.

A la fin de cet atelier, j’espère que chacun(e) soit convaincu(e) de l’intérêt des tests dans le développement de pipelines data et se sente suffisamment à l’aise pour intégrer cette pratique dans son quotidien.

Workshop
BigData & AI