Repérer et gérer les données manquantes dans un jeu de données
Objectif de la formation : à l'issue de cette formation, le stagiaire sera capable de repérer dans son jeu de données les données manquantes et selon le contexte, saura prendre une décision par rapport à la gestion de ces dernières.
Niveau : Débutant
Pré-requis : aucun
Durée : 1 jour (7 heures)
Tarif : 400 € H.T
Date et lieu : au choix - Rennes ou distanciel
Programme :
1. Introduction
- Définition d'une donnée manquante
- Importer un jeu de données
2. Les différentes possibilités d'absence de données
- Les données Missing Completely At Random (MCAR)
- Les données Missing At Random (MAR)
- Les données Not Missing At Random (NMAR)
3. Méthodes pour gérer les données manquantes
- Suppression des observations
- Imputation de données :
- par règle
- par moyenne ou par mode
- par régression
- par la méthode Hot Deck