Calculez les résiduels d'un jeu de données afin de vérifier si ce jeu est linéairement distribué. Avant d'utiliser le modèle de régression pour la prédiction, vérifiez que les hypothèses du modèle linéaire sont satisfaites :
• Les erreurs doivent être non corrélées.
• Pour toute valeur donnée de X, les erreurs doivent être distribuées normalement avec une moyenne égale à zéro et une variance constante.
Résiduels standardisés
Pour interpréter l'amplitude relative des résiduels, vous pouvez les standardiser. Vous devez diviser les résiduels par une estimation de l'écart-type de l'erreur.
1. Définissez le jeu de données suivant :
2. Tracez le jeu de données.
Les données semblent être linéaires. Cela est confirmé par le coefficient de corrélation qui est proche de 1 :
3. Définissez la droite de meilleure approximation :
4. Soustrayez les valeurs d'ajustement des valeurs mesurées.
5. Divisez les résiduels par l'erreur type de l'estimation.
Résiduels de Student
Les résiduels de Student, ou résiduels standardisés ajustés, sont une autre estimation fréquemment utilisée de l'erreur type. Cette estimation est une approximation de la distance entre chaque valeur de x et la moyenne de x.
1. Calculez la distance entre les valeurs et la moyenne.
2. Définissez l'écart-type obtenu pour chaque résiduel.
3. Définissez les résiduels de Student :
Les résiduels de Student sont plus précis que les résiduels standardisés, car ils tiennent compte des différences de point à point dans la variance d'erreur. Néanmoins, les résiduels ont généralement des valeurs proches les unes des autres :
4. Appelez polyfitstat. Affichez la sous-matrice des diagnostics d'observation contenant les résiduels de Student.
Vérification de la linéarité
Vérifiez que l'ensemble Data présente une relation linéaire. Créez un contre-exemple en utilisant un échantillon aléatoire présentant une dépendance curviligne. Si les données sont linéairement réparties et que les erreurs sont distribuées normalement, les nuages de points ne présentent pas de motif discernable. Les points sont dispersés de manière aléatoire suite à l'hypothèse de moyenne d'erreur égale à zéro.
1. Tracez les résiduels en fonction des valeurs x et des valeurs y prédites.
L'absence de motif des résiduels indique que les données sont linéairement réparties.
2. Générez un échantillon aléatoire de points présentant une relation quadratique.
3. Représentez graphiquement l'amplitude relative des résiduels.
Le motif quadratique des données se reflète dans le nuage de points résiduel. Ces données ne présentent pas une relation linéaire.
Recherche de variances d'erreur constantes
Aucun motif dans les variances d'erreur n'a été détecté dans l'ensemble Data. Créez un contre-exemple dans lequel les données sont linéaires mais où les variances d'erreur ne sont pas distribuées normalement. Dans ce cas, un nuage de points des résiduels montre une dispersion croissante ou décroissante de la gauche vers la droite.
1. Générez un échantillon aléatoire de points présentant une dispersion croissante de la gauche vers la droite.
2. Calculez la droite de meilleure approximation. Tracez le jeu de données aléatoires et la fonction d'approximation.
Le coefficient de corrélation proche de 1 indique que les données sont linéairement réparties :
3. Représentez graphiquement l'amplitude relative des résiduels.
Le nuage de points des résiduels ne présente pas une distribution aléatoire. Les points du tracé résiduel présentent une dispersion croissante de la gauche vers la droite.
Vérification de la corrélation des erreurs
Vous pouvez vérifier si les termes d'erreurs adjacents dans le modèle de régression linéaire sont corrélés en utilisant la statistique de Durbin-Watson.
Calculez la statistique de Durbin-Watson pour l'ensemble Data :
Les valeurs de la statistique de Durbin-Watson sont comprises entre 0 et 4. Si les termes adjacents ne sont pas corrélés, la valeur de Durbin-Watson est proche de 2. Des valeurs de Durbin-Watson inférieures à 2 indiquent des corrélations adjacentes positives et des valeurs supérieures à 2 indiquent des corrélations négatives.
La statistique de Durbin-Watson est utilisée dans le calcul des B-splines par moindres carrés. Malheureusement, la statistique de Durbin-Watson ne peut pas détecter de corrélations (non adjacentes) d'ordre plus élevé. Ces types de corrélations ne se produisent généralement pas sans une corrélation entre les erreurs adjacentes.
La statistique de Durbin-Watson est l'une des statistiques renvoyée par polyfitstat :
Vérification de la normalité
Vérifiez si l'ensemble Data est distribué normalement en créant un tracé normal des résiduels standardisés.
Le tracé normal ressemble à une ligne droite. Les erreurs sont par conséquent approximativement réparties normalement. Les tracés normaux pouvant être sensibles au non-respect d'autres hypothèses, par exemple lorsque les variances d'erreur ne sont pas égales, il est préférable de vérifier la normalité en dernier.