La préparation des données à fournir aux modèles (ingénierie des caractéristiques / feature engineering) est une étape essentielle dans les processus d’apprentissage automatique.
Voici les principales options de transformation possibles :
Pandas s’exécutant en local, cela ne pose pas de problématique spécifiques d’ingénierie logicielle. Nous ne développerons donc pas la présentation de cette librairie dans ce cours.
Pour la partie pratique, voir le notebook partagé dans le cours 02 - Apprentissage Machine (Machine Learning).
Il est possible de profiter de la puissance de calcul réparti de Spark pour y exécuter du “code Pandas” : Pandas API on Spark.
Tutoriaux à étudier et reproduire en local dans VS Code :