Fonctions > Analyse des données > Ajustement de courbe > Exemple : Régression linéaire
  
Exemple : Régression linéaire
Utilisez les fonctions polyfitc, line, slope et intercept pour déterminer la droite des moindres carrés de meilleure approximation pour un jeu de données x-y. Utilisez la fonction stderr pour calculer l'erreur dans les paramètres ajustés. Calculez les limites de confiance autour de la droite de meilleure approximation et formez les intervalles de confiance.
Droite de meilleure approximation
Créez une fonction linéaire permettant d'estimer le temps nécessaire pour parcourir différentes distances en voiture.
1. Définissez un ensemble de distances en miles ainsi que le temps nécessaire en minutes pour les parcourir en voiture.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
2. Définissez une équation de régression linéaire univariée.
Cliquez pour copier cette expression
3. Appelez polyfitc pour calculer les coefficients de régression a et b.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Les coefficients sont tels que la différence entre les valeurs dans T et les valeurs calculées par l'équation de régression f est minimale pour chaque valeur x. Vous pouvez le vérifier en utilisant un bloc de résolution et la fonction minimize pour minimiser la somme des carrés :
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
4. Définissez la droite de meilleure approximation qui minimise la somme des carrés des distances de chaque point à la droite.
Cliquez pour copier cette expression
Vous ne devez utiliser d'équation paramétrique issue d'une régression linéaire ou d'une régression d'un tout autre type que pour les valeurs situées à proximité des données observées à l'origine. La droite de meilleure approximation pour les données ci-dessus prédit que le temps nécessaire pour parcourir une distance de 0 mile en voiture est de :
Cliquez pour copier cette expression
Cela n'a pas de sens si le temps mesuré représente strictement un temps de parcours à vitesse constante. Ce genre de résultat peut parfois représenter un phénomène physique particulier. Dans ce cas, le temps nécessaire pour parcourir zéro mile en voiture peut être interprété comme le temps d'attente moyen aux feux de signalisation.
5. Tracez les points de données et la droite de meilleure approximation.
Cliquez pour copier cette expression
Autres méthodes de calcul de la pente et de l'interception à l'origine
Il existe diverses méthodes de calcul de la pente et de l'interception à l'origine de la droite de meilleure approximation. Par exemple, la fonction line combine les fonctions slope et intercept. Les autres méthodes incluent des calculs matriciels ou des relations statistiques.
1. Appelez les fonctions intercept et slope.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
2. Appelez la fonction line.
Cliquez pour copier cette expression
3. Utilisez le calcul matriciel à l'aide de la fonction augment.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
4. Utilisez la relation statistique à l'aide des fonctions stdev, corr, mean et slope.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
5. Utilisez un tracé pour montrer que la ligne des moindres carrés passe toujours à travers le point (mean(X), mean(T)) :
Cliquez pour copier cette expression
Erreurs type
Calculez l'erreur type de l'estimation (également appelée erreur standard) afin de mesurer la qualité de l'ajustement linéaire ci-dessus. Calculez également l'erreur dans la pente et dans l'interception à l'origine.
1. Définissez le nombre de degrés de liberté (le nombre de points de données moins le nombre de paramètres ajustés).
Cliquez pour copier cette expression
2. Appelez la fonction stderr pour calculer l'erreur type de l'estimation pour la droite de meilleure approximation définie ci-dessus.
Cliquez pour copier cette expression
Il s'agit de la racine carrée de l'erreur quadratique moyenne, MSE, ou σ2 :
Cliquez pour copier cette expression
3. Comparez l'erreur type calculée à l'erreur type renvoyée par la fonction polyfitstat.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
4. Calculez les erreurs type dans la pente et à l'interception à l'origine.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
5. Répétez le calcul ci-dessus à l'aide du calcul matriciel.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
6. La fonction augment permet de montrer que les erreurs type pour chaque coefficient de régression sont enregistrées dans la matrice renvoyée par la fonction polyfitc.
Cliquez pour copier cette expression
Intervalles de confiance de chaque coefficient
Utilisez les estimations ci-dessus, ainsi que les points de percentile de la distribution t de Student, afin de constituer un intervalle de confiance pour les estimations de la pente et de l'interception à l'origine.
1. Définissez le niveau de signification pour un intervalle de confiance de 98% et utilisez la fonction qtpour calculer le facteur t.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
2. Calculez les limites de confiance de la pente.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
La probabilité que la valeur réelle de la pente soit comprise entre SL et SU est égale à 98%.
3. Calculez les limites de confiance de l'interception à l'origine.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
La large plage obtenue pour cette valeur traduit le haut niveau de dispersion des données.
4. Appelez la fonction confidence afin de répéter les étapes 1 à 3.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
La fonction confidence renvoie les largeurs de l'intervalle de confiance dans sa première colonne et le facteur t dans sa deuxième colonne. Lorsque vous divisez les largeurs par le facteur t, vous retrouvez les erreurs type dans les deux paramètres :
Cliquez pour copier cette expression
5. Pour déterminer les limites de confiance, ajoutez ou soustrayez la largeur issue du paramètre approprié :
Cliquez pour copier cette expression
6. La fonction augment permet de montrer que les erreurs type pour chaque coefficient de régression sont enregistrées dans la matrice renvoyée par la fonction polyfitc.
Cliquez pour copier cette expression
Intervalles de confiance de la régression
1. Utilisez les fonctions length et mean pour calculer un intervalle de confiance pour la régression.
Cliquez pour copier cette expression
2. Utilisez la fonction ci-dessus pour calculer l'intervalle de confiance pour toute valeur x prédite.
Cliquez pour copier cette expression
3. Utiliser un calcul matriciel :
Cliquez pour copier cette expression
Cliquez pour copier cette expression
4. Tracez les données, la droite de meilleure approximation et l'intervalle de confiance pour la totalité de la zone de régression.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
La zone de confiance pour les valeurs prédites présente un étranglement à proximité du centre des valeurs mesurées. Cela est dû au fait que les formules utilisées pour calculer la régression sont basées sur la moyenne. Par conséquent, les valeurs prédites à proximité de la moyenne des données sont plus précises.
5. Calculez les limites de confiance sur les valeurs mesurées. Ces limites diffèrent légèrement des limites relatives aux valeurs prédites.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
6. Utiliser un calcul matriciel :
Cliquez pour copier cette expression
Cliquez pour copier cette expression
7. Tracez les limites de confidence comme courbe de type erreur.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
* 
Vous pouvez utiliser les graphiques comme moyen de détection des valeurs extrêmes, lorsque les valeurs mesurées situées en dehors des intervalles de confiance indiquent la présence d'une valeur extrême.