Exemple : Identification d'observations influentes
Utilisez la fonction polyfitstat pour tester les observations utilisées pour créer une régression polynomiale multivariée.
1. Définissez une matrice contenant des échantillons de 20 individus en bonne santé entre 25 et 34 ans.
Les colonnes de la matrice représentent l'épaisseur cutanée du triceps, la circonférence de la cuisse et la proportion de graisse dans le corps, respectivement, pour chacune des 20 personnes.
2. Utilisez les fonctions rows et cols pour calculer le nombre de lignes et de colonnes.
3. Utilisez la fonction augment pour définir la matrice BM comme les deux premières colonnes de la matrice. Utilisez ces mesures pour prédire la quantité de graisse chez les individus.
4. Appelez la fonction polyfitstat pour modéliser l'expérience à l'aide d'une régression d'ordre 1 et calculer les statistiques de régression.
5. Affichez la matrice des coefficients de régression figurant à la ligne 7 de la matrice de sortie P.
6. Calculez les coefficients de régression à l'aide du calcul matriciel.
Les coefficients de régression satisfont à l'équation suivante :
7. Utilisez l'équation de régression pour calculer la quantité prédite de réserves lipidiques de l'organisme. Comparez ces valeurs à la quantité de réserves lipidiques de l'organisme mesurée.
8. Utilisez la fonction submatrix pour afficher les statistiques de modèle trouvées dans les premières lignes de la matrice de sortie P.
La première statistique est l'écart-type de la régression.
9. Affichez les diagnostics du modèle figurant dans la dernière matrice imbriquée de la matrice de sortie P.
Les valeurs observées et prédites correspondent aux valeurs affichées à l'étape 7. Les résiduels représentent la différence entre les valeurs observées et les valeurs prédites :
10. Calculez les résiduels, soit la différence entre les valeurs observées et les valeurs prédites.
11. Utilisez la fonction diag pour calculer les valeurs d'influence, ou valeurs diagonales, de la matrice H.
12. Calculez les résiduels de Student.
Les résiduels de Student externes, ou R de Student, sont calculés ci-dessous. La constante p est le nombre de coefficients calculés pour la régression et S2 est une estimation de s2 basée sur un jeu de données où l'observation d'ordre ième a été supprimée.
13. Utilisez la distance de Cook pour mesurer l'influence générale d'un point supprimé sur une régression linéaire.
14. Calculez la différence entre les valeurs prévues lorsque toutes les observations sont incluses dans les valeurs prévues et ajustées lorsque l'observation ième est omise.
15. Utilisez les fonctions augment et stack pour afficher les statistiques précédentes.
16. Utilisez les fonctions max et qt pour déterminer la plus grande valeur Student R du jeu de données. Utilisez le test de Bonferroni pour décider si l'observation correspondante est une valeur extrême.
La plus grande valeur R de Student est plus petite que le test de Bonferroni, ce qui indique que l'observation correspondante n'est pas une valeur extrême.
17. Déterminez la valeur DFFITS maximum.
La valeur est supérieure à 1, mais elle est suffisamment proche de 1 pour que l'on puisse dire que l'observation correspondante n'est pas une observation influente.
18. Créez un tracé d'influence d'indice en traçant les distances de Cook pour les différentes exécutions.
L'observation de run2 n'est pas l'observation la plus influente du jeu de données. L'observation de run12 identifiée à l'étape 10 est également influente, mais de façon très inférieure à celle de run2.
Référence
Référence : Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W., Applied Linear Statistical Models, 4th ed., McGraw-Hill/Irwin, Boston, 1996, pp. 375