Utilisez les fonctions polyfitc, line, slope et intercept pour déterminer la droite des moindres carrés de meilleure approximation pour un jeu de données x-y. Utilisez la fonction stderr pour calculer l'erreur dans les paramètres ajustés. Calculez les limites de confiance autour de la droite de meilleure approximation et formez les intervalles de confiance.
Droite de meilleure approximation
Créez une fonction linéaire permettant d'estimer le temps nécessaire pour parcourir différentes distances en voiture.
1. Définissez un ensemble de distances en miles ainsi que le temps nécessaire en minutes pour les parcourir en voiture.
2. Définissez une équation de régression linéaire univariée.
3. Appelez polyfitc pour calculer les coefficients de régression a et b.
Les coefficients sont tels que la différence entre les valeurs dans T et les valeurs calculées par l'équation de régression f est minimale pour chaque valeur x. Vous pouvez le vérifier en utilisant un bloc de résolution et la fonction minimize pour minimiser la somme des carrés :
4. Définissez la droite de meilleure approximation qui minimise la somme des carrés des distances de chaque point à la droite.
Vous ne devez utiliser d'équation paramétrique issue d'une régression linéaire ou d'une régression d'un tout autre type que pour les valeurs situées à proximité des données observées à l'origine. La droite de meilleure approximation pour les données ci-dessus prédit que le temps nécessaire pour parcourir une distance de 0 mile en voiture est de :
Cela n'a pas de sens si le temps mesuré représente strictement un temps de parcours à vitesse constante. Ce genre de résultat peut parfois représenter un phénomène physique particulier. Dans ce cas, le temps nécessaire pour parcourir zéro mile en voiture peut être interprété comme le temps d'attente moyen aux feux de signalisation.
5. Tracez les points de données et la droite de meilleure approximation.
Autres méthodes de calcul de la pente et de l'interception à l'origine
Il existe diverses méthodes de calcul de la pente et de l'interception à l'origine de la droite de meilleure approximation. Par exemple, la fonction line combine les fonctions slope et intercept. Les autres méthodes incluent des calculs matriciels ou des relations statistiques.
1. Appelez les fonctions intercept et slope.
2. Appelez la fonction line.
3. Utilisez le calcul matriciel à l'aide de la fonction augment.
4. Utilisez la relation statistique à l'aide des fonctions stdev, corr, mean et slope.
5. Utilisez un tracé pour montrer que la ligne des moindres carrés passe toujours à travers le point (mean(X), mean(T)) :
Erreurs type
Calculez l'erreur type de l'estimation (également appelée erreur standard) afin de mesurer la qualité de l'ajustement linéaire ci-dessus. Calculez également l'erreur dans la pente et dans l'interception à l'origine.
1. Définissez le nombre de degrés de liberté (le nombre de points de données moins le nombre de paramètres ajustés).
2. Appelez la fonction stderr pour calculer l'erreur type de l'estimation pour la droite de meilleure approximation définie ci-dessus.
Il s'agit de la racine carrée de l'erreur quadratique moyenne, MSE, ou σ2 :
3. Comparez l'erreur type calculée à l'erreur type renvoyée par la fonction polyfitstat.
4. Calculez les erreurs type dans la pente et à l'interception à l'origine.
5. Répétez le calcul ci-dessus à l'aide du calcul matriciel.
6. La fonction augment permet de montrer que les erreurs type pour chaque coefficient de régression sont enregistrées dans la matrice renvoyée par la fonction polyfitc.
Intervalles de confiance de chaque coefficient
Utilisez les estimations ci-dessus, ainsi que les points de percentile de la distribution t de Student, afin de constituer un intervalle de confiance pour les estimations de la pente et de l'interception à l'origine.
1. Définissez le niveau de signification pour un intervalle de confiance de 98% et utilisez la fonction qtpour calculer le facteur t.
2. Calculez les limites de confiance de la pente.
La probabilité que la valeur réelle de la pente soit comprise entre SL et SU est égale à 98%.
3. Calculez les limites de confiance de l'interception à l'origine.
La large plage obtenue pour cette valeur traduit le haut niveau de dispersion des données.
4. Appelez la fonction confidence afin de répéter les étapes 1 à 3.
La fonction confidence renvoie les largeurs de l'intervalle de confiance dans sa première colonne et le facteur t dans sa deuxième colonne. Lorsque vous divisez les largeurs par le facteur t, vous retrouvez les erreurs type dans les deux paramètres :
5. Pour déterminer les limites de confiance, ajoutez ou soustrayez la largeur issue du paramètre approprié :
6. La fonction augment permet de montrer que les erreurs type pour chaque coefficient de régression sont enregistrées dans la matrice renvoyée par la fonction polyfitc.
Intervalles de confiance de la régression
1. Utilisez les fonctions length et mean pour calculer un intervalle de confiance pour la régression.
2. Utilisez la fonction ci-dessus pour calculer l'intervalle de confiance pour toute valeur x prédite.
3. Utiliser un calcul matriciel :
4. Tracez les données, la droite de meilleure approximation et l'intervalle de confiance pour la totalité de la zone de régression.
La zone de confiance pour les valeurs prédites présente un étranglement à proximité du centre des valeurs mesurées. Cela est dû au fait que les formules utilisées pour calculer la régression sont basées sur la moyenne. Par conséquent, les valeurs prédites à proximité de la moyenne des données sont plus précises.
5. Calculez les limites de confiance sur les valeurs mesurées. Ces limites diffèrent légèrement des limites relatives aux valeurs prédites.
6. Utiliser un calcul matriciel :
7. Tracez les limites de confidence comme courbe de type erreur.
Vous pouvez utiliser les graphiques comme moyen de détection des valeurs extrêmes, lorsque les valeurs mesurées situées en dehors des intervalles de confiance indiquent la présence d'une valeur extrême.