MGL7320

EngineeringAISystems

MGL7320 - Ingénierie logicielle des systèmes d’IA

05 - Ingénierie des caractéristiques

Prelude

Quizz architecture - https://ahaslides.com/MSOPC

Préparation présentation personnelle du 15 octobre

Rencontre Teams

Validation des données

Validation et gestion des données

Préparation des données

La préparation des données à fournir aux modèles (ingénierie des caractéristiques / feature engineering) est une étape essentielle dans les processus d’apprentissage automatique.

Voici les principales options de transformation possibles :

Pandas pour les jeux de données de taille réduite
Spark pour les données massives

Pandas

Pandas s’exécutant en local, cela ne pose pas de problématique spécifiques d’ingénierie logicielle. Nous ne développerons donc pas la présentation de cette librairie dans ce cours.

Pour la partie pratique, voir le notebook partagé dans le cours 02 - Apprentissage Machine (Machine Learning).

Il est possible de profiter de la puissance de calcul réparti de Spark pour y exécuter du “code Pandas” : Pandas API on Spark.

Spark

Théorie

INF8200 - Cours 4 - Spark

Pratique

Tutoriaux à étudier et reproduire en local dans VS Code :

Pour aller plus loin

Complétez les exercices proposés ici (repris du cours INF8200) : Spark 2/3 - Cluster et Jupyter

Prochaine séance

Sélection des modèles

uqàm