Sommaire
IDéfinitionsALa population et la sous-populationBL'effectif total et le caractèreIILes proportions et les pourcentagesALes proportionsBLes pourcentagesCLes pourcentages de pourcentageIIIL'évolution d'un effectifALes variations absolues et relativesBLes coefficients multiplicateursCLe cas de plusieurs évolutions successivesDL'évolution réciproqueIVLes statistiques descriptivesAL'étendueBLa médiane et les quartiles1La médiane2Les quartiles3L'écart interquartileCLes diagrammes en boîteDLa moyenne et l'écart type1La définition de la moyenne2La variance et l'écart typeDéfinitions
Tout comme les probabilités, les statistiques sont un domaine avec un vocabulaire spécifique. La population et la sous-population des individus étudiés sont représentées par l'effectif total et le caractère étudié.
La population et la sous-population
On étudie les caractéristiques d'une population ou d'une sous-population lorsque les individus, non nécessairement humains, partagent des caractéristiques semblables.
Population
On appelle la population l'ensemble des individus étudiés.
Les enfants nés à Paris en 2000 représentent une population.
Il faut comprendre le terme « individus » au sens large. On n'étudie pas nécessairement des individus humains.
Les voitures produites dans une usine au cours du mois de février 2010 représentent également une population.
Sous-population
Une sous-population d'une population donnée est un sous-ensemble de cette population.
Les enfants nés à Paris au mois de mai 2000 représentent une sous-population des enfants nés à Paris en 2000.
L'effectif total et le caractère
Une population peut être assemblée en fonction d'un caractère commun. On peut toujours compter les individus, ce que l'on appelle l'effectif total.
Effectif total
L'effectif total est le nombre d'individus que contient la population. L'effectif d'une sous-population est le nombre d'individus qu'elle contient.
Caractère
Un caractère statistique est une caractéristique que l'on cherche à analyser dans une population.
Dans une enquête statistique portant sur les animaux domestiques des foyers français, les foyers qui hébergent un chat est un caractère statistique.
L'ensemble des individus qui présentent un caractère donné forme donc une sous-population.
Les proportions et les pourcentages
Lorsque l'on étudie un caractère d'une population, on est amené à considérer des fractions de la forme \dfrac{n}{N} où N est l'effectif de la population, et n l'effectif d'une sous-population qui présente le caractère que l'on veut étudier. Ainsi, puisque \dfrac{n}{N} \in [0, 1], on peut utiliser des pourcentages pour représenter cette proportion. Il arrive que l'on étudie des sous-populations de populations, on utilise alors des pourcentages de pourcentages.
Les proportions
On peut exprimer l'effectif d'une sous-population dans une population totale à l'aide d'une proportion.
Proportion d'une sous-population
Soit N l'effectif total d'une population, et n l'effectif d'une sous-population. La proportion d'une sous-population dans la population est égale à \dfrac{n}{N}.
On considère une population de 25 élèves d'une classe de seconde. Dans cette classe, 12 élèves font de l'anglais. Ces élèves forment une sous-population. La proportion d'élèves qui font de l'anglais dans cette population est :
p = \dfrac{12}{25} = 0{,}48
Les pourcentages
On peut exprimer l'effectif d'une sous-population dans une population totale à l'aide d'un pourcentage.
Une proportion peut être exprimée sous forme de pourcentage.
p = \dfrac{12}{25} = 0{,}48 correspond à une proportion de \text{48 \%}, car 0{,}48 = \dfrac{48}{100}.
Le pourcentage est l'une des façons possibles d'exprimer une proportion.
Pour déterminer l'effectif correspondant à un pourcentage d'une population, on multiplie ce pourcentage par l'effectif total de la population.
Ainsi, p\text{ \%} d'une population d'effectif N correspond à :
\dfrac{p}{100} \times N
Dans une ville de 20 000 habitants, 75 % des habitants ont un animal de compagnie. Le nombre d'habitants ayant un animal de compagnie est donc :
n = \dfrac{75}{100} \times \text{20 000 = 15 000}
Les pourcentages de pourcentage
Il arrive fréquemment que l'on veuille étudier la sous-population d'une population.
On donne P_2 \subset P_1 \subset P.
Soient p_1 la proportion de P_1 dans P et p_2 la proportion de P_2 dans P_1. La proportion de P_2 dans P est :
p = p_2 \times p_1
On considère une ville où 75 % des habitants ont un animal de compagnie. Parmi eux, 60 % ont un chien. On cherche à calculer la proportion des habitants de la ville qui ont un chien.
Le pourcentage d'habitants de la ville ayant un chien est :
p' = \dfrac{60}{100} \times \dfrac{75}{100} = \dfrac{\text{4 500}}{\text{10 000}} = \dfrac{45}{100} = \text{45 \%}
En conclusion, 45 % des habitants de la ville ont un chien.
Cette propriété est valable que l'on exprime la proportion sous forme de pourcentage ou non.
L'évolution d'un effectif
On peut s'intéresser aux évolutions de caractères quantitatifs d'une population. On utilise alors les variations absolues et relatives et les coefficients multiplicateurs. Dans certains cas, une quantité peut subir plusieurs évolutions successives. On utilise l'évolution réciproque pour connaître la valeur initiale lorsqu'on a la valeur finale de l'évolution d'un effectif.
Les variations absolues et relatives
L'évolution de l'effectif d'une population sur un intervalle de temps peut être exprimée en variations absolues et relatives.
Variation absolue
Une variation absolue est une variation qui se calcule selon la formule suivante :
\text{Variation absolue} = \text{Quantité finale} - \text{Quantité initiale}
Un prix passe de 50 € à 30 €. La variation absolue du prix est de 30 - 50 soit -20 €. On dit alors que le prix a diminué de 20 €.
Variation relative
La variation relative entre deux quantités se calcule selon la formule suivante :
\text{Variation relative } = \dfrac{\text{Quantité finale} - \text{Quantité initiale}}{\text{Quantité initiale}}
Un prix passe de 50 € à 30 €.
La variation relative est de :
\dfrac{30-50}{50} = \dfrac{-20}{50} = - \dfrac{2}{5} = -0{,}4 = - \dfrac{40}{100} = -\text{40 \%}
Le taux d'évolution est de -40 %. Il est donc négatif, donc le prix a diminué de 40 %.
La variation relative est aussi appelée « taux d'évolution ».
Les coefficients multiplicateurs
Lorsqu'une grandeur augmente en pourcentage, on parle de coefficient multiplicateur pour passer de la grandeur initiale à son résultat.
Coefficients multiplicateurs
- Augmenter un nombre de p \text{ \%} revient à la multiplier par \left(1 + \dfrac{p}{100}\right).
- Diminuer un nombre de p\text{ \%} revient à la multiplier par \left(1 - \dfrac{p}{100}\right).
\left(1 - \dfrac{p}{100}\right) et \left(1 + \dfrac{p}{100}\right) sont appelés les coefficients multiplicateurs.
Une population de 2 000 habitants voit son effectif augmenter de 25 %. Son nouvel effectif, noté n', est de :
n'= \text{2 000} \times \left(1 + \dfrac{25}{100}\right) = \text{2 000} \times \dfrac{125}{100} = \text{2 000} \times 1{,}25 = \text{2 500}
Réciproquement, multiplier une quantité par \left(1 + \dfrac{p}{100}\right) ou \left(1 - \dfrac{p}{100}\right) revient à l'augmenter (ou diminuer) de p\text{ \%}.
Multiplier un prix par 1,04 revient à l'augmenter de 4 %.
Le cas de plusieurs évolutions successives
Une quantité peut subir plusieurs évolutions à la suite. Son coefficient multiplicateur est alors égal au produit des coefficients multiplicateurs intermédiaires.
Le coefficient multiplicateur de l'évolution globale correspondant à plusieurs évolutions successives est égal au produit des coefficients multiplicateurs intermédiaires.
Un placement à la banque rapporte 2 % d'intérêts la première année, puis 3 % d'intérêts la deuxième année.
On appelle C le capital d'argent placé initialement à la banque. À l'issue de la première année, le capital a été augmenté de 2 %. Le capital obtenu après la première année, C_1, est donc :
C_1 = C \times \left(1 + \dfrac{2}{100}\right)
À l'issue de la deuxième année, le capital a augmenté de 3 %, mais le point de départ n'est plus le capital initial C, mais le nouveau capital C_1. On obtient donc :
C_2 = C_1 \times \left(1 + \dfrac{3}{100}\right) = C \times \left(1 + \dfrac{2}{100}\right)\times \left(1 + \dfrac{3}{100}\right)
Pour obtenir le capital final, on a donc multiplié successivement par les deux coefficients multiplicateurs.
Le coefficient multiplicateur final est le produit des deux coefficients multiplicateurs intermédiaires :
\left(1 + \dfrac{2}{100}\right)\times \left(1 + \dfrac{3}{100}\right) = \dfrac{102}{100} \times \dfrac{103}{100} = \dfrac{\text{10 506}}{\text{10 000}} = 1{,}0506
Le taux d'évolution global n'est pas égal à la somme des taux d'évolution successifs.
Une population P diminue de 10 %, puis elle augmente de 10 %. Sa nouvelle population P' :
P' = P \times \left( 1 - \dfrac{10}{100}\right) \times \left( 1 + \dfrac{10}{100}\right) = P \times 0{,}9 \times 1{,}1 = P \times 0{,}99
Or, P \times 0{,}99 = P \times \left(1 - \dfrac{1}{100}\right), la population a finalement diminué de 1 %.
La raison est que lorsque l'on applique les 10 % la deuxième fois, ils s'appliquent sur une population plus grande que la population initiale. Ils représentent donc plus d'individus que les premiers 10 % d'augmentation.
L'évolution réciproque
Il arrive que l'on connaisse la valeur d'une quantité après une évolution et que l'on cherche sa valeur initiale avant l'évolution. On cherche alors l'évolution réciproque.
Un t-shirt soldé à 30 % est mis en vente au un prix de 7 €.
On appelle p_i le prix initial et p_f le prix final.
La relation entre les deux prix est :
p_f = p_i \times \left( 1 - \dfrac{30}{100} \right) = p_i \times 0{,}7
Le coefficient multiplicateur est 0,7. On souhaite retrouver le prix initial.
En utilisant l'égalité ci-dessus, on a :
7 = p_i \times 0{,}7
C'est une équation linéaire du premier degré à une seule inconnue, p_i, que l'on peut résoudre par :
p_i = \dfrac{7}{0{,}7} = 10
On a divisé le prix final par le coefficient multiplicateur pour retrouver le prix initial.
Le coefficient multiplicateur c' d'une évolution réciproque est l'inverse du coefficient multiplicateur c de l'évolution initiale. Autrement dit, si c est le coefficient multiplicateur pour passer d'une quantité Q à la quantité Q', alors c'=\dfrac{1}{c} est le coefficient multiplicateur pour passer de Q' à Q.
Une population augmente de 10 %, c'est-à-dire qu'elle est multipliée par 1,10. Pour retrouver la population initiale à partir de la nouvelle population, on doit diviser par 1,10.
Si c est le coefficient multiplicateur d'une évolution et c' celui de l'évolution réciproque, alors c \times c' =1, puisqu'on revient, par définition, au point de départ.
Le taux d'évolution réciproque t' est donné par :
t' = c' - 1 = \dfrac{1}{c} - 1
Une population augmente de 60 %, c'est-à-dire qu'elle est multipliée par :
c = \left( 1 + \dfrac{60}{100} \right) = 1{,}60
Pour retrouver la population initiale à partir de la nouvelle population, on doit diviser par 1{,}60.
On a donc :
c'=\dfrac{1}{1{,}60} = 0{,}625
On multiplie la nouvelle population par 0,625 pour retrouver la population initiale. Or, 0{,}625 = 1- 0{,}375, donc le taux d'évolution réciproque est de -37,5 %.
Après une augmentation de 60 %, il faut que la nouvelle population diminue de 37,5 % pour retrouver la population initiale.
Le taux d'évolution réciproque n'est pas égal à l'opposé du taux d'évolution initial.
Un t-shirt coûtant initialement 10 € est soldé à 30 % pour arriver à un prix de 7 €. Si l'on augmente de 30 % le prix obtenu, on obtient :
\left( 1 + \dfrac{30}{100}\right) \times 7 = 1{,}3 \times 7 = 9{,}1 \not = 10
Augmenter le nouveau prix de 30 % ne permet pas de revenir au prix initial, car 30 % de 7 € ne sont pas égaux à 30 % de 10 €, ils ne correspondent pas à la même variation absolue.
Les statistiques descriptives
Pour comprendre à quoi ressemble un jeu de données, des statistiques descriptives permettent d'un dresser un portrait. Deux autres paramètres sont essentiels lorsque l'on s'intéresse aux séries de données numériques : la moyenne et la médiane. Ces indicateurs donnent une idée de la position « centrale » des données : on dit que ce sont des indicateurs de position, ou de tendance centrale. Cependant, ils sont insuffisants car deux séries peuvent être différentes alors qu'elles ont la même moyenne ou la même médiane. Pour mesurer la dispersion des données autour de leur valeur centrale, on va introduire de nouveaux indicateurs comme l'écart-type, dits paramètres de dispersion, et on représentera ces informations sur des schémas récapitulatifs que l'on appelle diagrammes en boîte.
L'étendue
Le premier calcul que l'on peut faire sur une série statistique est l'étendue. Elle donne relativement peu d'information sur la disposition des données. Pour être plus précis, il faudra fournir la médiane de la série statistique.
Étendue
L'étendue d'une série quantitative est égale à la différence entre la plus grande valeur et la plus petite valeur de la série.
Le tableau d'effectifs suivant présente les notes obtenues par un groupe d'élèves :
Note | 5 | 8 | 9 | 10 | 10,5 | 11 | 13 | 14 | 14,5 | 16 |
Nombre d'élèves | 1 | 3 | 5 | 6 | 2 | 5 | 6 | 1 | 2 | 1 |
L'étendue est donc de 16-5 = 11.
La médiane et les quartiles
La médiane (et ses variantes, les quartiles) donne un aperçu sur la disposition des données.
La médiane
Médiane
On appelle médiane d'une série rangée par ordre croissant toute valeur qui partage la série en deux séries de même effectif.
La médiane est donc une valeur telle que 50 % des valeurs sont supérieures ou égales à la médiane et 50 % lui sont inférieures ou égales.
On considère une série dont les valeurs des n individus sont rangées par ordre croissant.
- Si n est impair, on prend en général pour médiane la \dfrac{n+1}{2}-ième valeur de la série ordonnée.
- Si n est pair, on prend en général pour médiane le centre de l'intervalle \left[ \dfrac{n}{2}\text{-ième valeur } ; \dfrac{n}{2} + 1\text{-ième valeur} \right].
Une médiane de la série 3, 5, 6, 11, 14, 21, 27 est la valeur 11. En effet, l'effectif est n=7, on choisit donc la valeur de rang \dfrac{7+1}{2} = 4, qui correspond à la valeur 11.
Une médiane n'est pas toujours une valeur observée dans la série statistique.
La médiane de la série 12, 13, 14, 19, 31, 41 est la valeur 16,5. En effet, l'effectif est un nombre pair n=6. On choisit donc pour valeur le centre de l'intervalle [14;19] qui est 16,5.
Et 16,5 n'est pas une valeur de la série.
Lorsque les valeurs sont présentées sous forme de tableau, on peut se servir des effectifs cumulés croissants pour déterminer la médiane.
On considère la série statistique suivante, avec un effectif total égal à 10 :
Pointure x_i | 39 | 40 | 41 | 44 |
Effectif n_i | 2 | 3 | 4 | 1 |
Effectifs cumulés croissants | 2 | 5 | 9 | 10 |
L'effectif vaut 10, c'est un nombre pair. On prend comme médiane la moyenne des 5e et 6e valeurs de l'effectif cumulé. On se sert des effectifs cumulés croissants pour lire que :
- la 5e valeur est 40 ;
- la 6e valeur est 41 car 5 < 6 \leq 9.
On dit alors que la médiane est \dfrac{40+41}{2} = 40{,}5.
La médiane n'est pas très affectée par des valeurs extrêmes d'une série. Par exemple, si l'on considère les série statistiques suivantes 1, 2, 3, 4, 5, 6, 7 et 1, 2, 3, 4, 5, 6, \text{1 000 000}, les deux séries ont la même médiane (ici, 4).
Les quartiles
Premier quartile
Le premier quartile est la plus petite valeur, notée Q_1, d'une série rangée par ordre croissant telle qu'au moins 25 % de l'effectif lui soit inférieur ou égal.
On considère la série suivante issue d'un échantillon de taille 8 : 3, 4, 5, 6, 11, 14, 21, 27.
Comme \dfrac{25}{100} \times 8 = 2, le premier quartile de cette série est son deuxième élément, soit 4.
On considère la série suivante issue d'un échantillon de taille 7 : 10, 12, 13, 14, 19, 31, 41.
Comme \dfrac{25}{100}\times 7 = 1{,}75, le premier quartile de cette série est son deuxième élément, soit 12.
Troisième quartile
Le troisième quartile est la plus petite valeur, notée Q_3, d'une série rangée par ordre croissant, telle qu'au moins 75 % de l'effectif lui soit inférieur ou égal.
On considère la série suivante issue d'un échantillon de taille 8 : 3, 4, 5, 6, 11, 14, 21, 27.
Comme \dfrac{75}{100} \times 8 = 6, le troisième quartile de cette série est son sixième élément, soit 14.
On considère la série suivante issue d'un échantillon de taille 7 : 10, 12, 13, 14, 19, 31, 41.
Comment \dfrac{75}{100}\times 7 = 5{,}25, le troisième quartile de cette série est son sixième élément, soit 31.
Alors que la médiane n'est pas toujours une valeur observée, les quartiles sont des valeurs observées.
Lorsqu'on a un tableau avec les fréquences cumulées croissantes :
- On choisit comme premier quartile la plus petite valeur pour laquelle on obtient une fréquence cumulée croissante supérieure à 25 %.
- On choisit comme troisième quartile la plus petite valeur pour laquelle on obtient une fréquence cumulée croissante supérieure à 75 %.
On considère la série statistique suivante, avec un effectif total égal à 10.
Pointure x_i | 39 | 40 | 41 | 44 |
Effectif n_i | 2 | 3 | 4 | 1 |
Effectifs cumulés croissants | 2 | 5 | 9 | 10 |
Fréquences cumulées croissantes | 0,2 | 0,5 | 0,9 | 1 |
40 est la plus petite valeur pour laquelle la fréquence cumulée croissante est supérieure ou égale à 0{,}25 = 25 \text{ \%}. C'est donc le premier quartile.
41 est la plus petite valeur pour laquelle la fréquence cumulée croissante est supérieure ou égale à 0{,}75 = 75 \text{ \%}. C'est donc le troisième quartile.
L'écart interquartile
Écart interquartile
Soient Q_1 le premier quartile et Q_3 le troisième quartile d'une série statistique. L'écart interquartile de la série statistique est le réel Q_3 - Q_1.
L'écart interquartile de la série 3, 4, 5, 6, 11, 14, 21, 27 est la valeur 14-4 = 10.
L'écart interquartile de la série 10, 12, 13, 14, 19, 31, 41 est la valeur 31 - 12 = 19.
Les diagrammes en boîte
Un diagramme en boîte est un diagramme donnant la position du minimum, du maximum, des quartiles et de la médiane choisie d'une série. Il résume assez fidèlement et visuellement la dispersion des données.
Diagramme en boîte
Un diagramme en boîte est une représentation mathématique. On représente, au-dessus d'un axe donnant les valeurs de la série statistique, un rectangle dont un des côtés donne la position Q_1 et dont le côté opposé donne la position de Q_3. On ajoute une marque, dans ce rectangle, pour indiquer la position de la médiane choisie. On ajoute enfin des « moustaches » aux extrémités.
Dans l'exemple précédent, on obtient le diagramme en boîte suivant :
Un diagramme en boîte peut permettre de comparer deux séries si l'on représente les diagrammes en boîte des deux séries au-dessus du même axe.
La moyenne et l'écart type
La moyenne est un indicateur très souvent utilisé, qui représente assez fidèlement une série statistique si jamais son écart type est faible.
La définition de la moyenne
Moyenne
Soit une série statistique représentée par les couples (x_i; n_i) où les x_i sont les valeurs de la série et les n_i leurs effectifs respectifs. La moyenne de la série, généralement notée \bar{x}, est le réel :
\bar{x} = \dfrac{n_1 x_1 + n_2 x_2 + \ldots + n_p x_p}{n}
Le tableau d'effectifs suivant présente les notes obtenues par un groupe d'élèves :
Note | 5 | 8 | 9 | 10 | 12,5 | 13 | 14 |
Nombre d'élèves | 1 | 3 | 5 | 6 | 2 | 5 | 6 |
L'effectif total est 1 + 3 + 5 + 6 + 2 + 5 + 6 = 28. On peut ainsi calculer la moyenne pondérée :
\bar{x} = \dfrac{5\times 1 + 8 \times 3 + 9 \times 5 + 10 \times 6 + 12.5 \times 2 + 13 \times 5 + 14 \times 6}{28} = 11
On peut calculer la moyenne d'une série en utilisant la fréquence de chaque valeur.
On considère la série statistique suivante :
Pointure x_i | 39 | 40 | 41 | 42 | 44 | Total |
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
Fréquence f_i | \dfrac{2}{12} | \dfrac{3}{12} | \dfrac{5}{12} | \dfrac{1}{12} | \dfrac{1}{12} | 1 |
On calcule la moyenne :
\bar{x} = 39\times \dfrac{2}{12} + 40\times\dfrac{3}{12} + 41\times\dfrac{5}{12} + 42 \times \dfrac{1}{12} + 44 \times \dfrac{1}{12} = \dfrac{163}{4} = 40{,}75
Soit k un nombre réel.
- Si l'on multiplie toutes les valeurs de la série par k, alors la moyenne est multipliée par k.
- Si l'on ajoute k à toutes les valeurs de la série, alors la moyenne est aussi augmentée de k.
On considère la série statistique 1, 1, 2, 3. Cette série a pour moyenne 1{,}75 car \dfrac{2 \times 1 + 2 + 3 }{4} = 1{,}75.
On considère maintenant la série statistique : 2, 2, 4{,}6. Les valeurs de cette série sont obtenues en multipliant par 2 les valeurs de la série précédente, et les effectifs sont inchangés. Comme 1{,}75 \times 2 = 3{,}5, la moyenne de la nouvelle série est 3,5.
On considère la série statistique 3, 3, 5, 7. Les valeurs de cette série sont obtenues en multipliant par deux et en ajoutant un à toutes les valeurs de la première série. De plus, les effectifs sont inchangés. Sa moyenne est donc 1{,}75 \times 2 + 1= 4{,}5.
La moyenne est extrêmement sensible aux valeurs extrêmes, ce qui peut donner une mauvaise indication de la tendance d'une série statistique. Par exemple, les séries statistiques suivantes : 1, 2, 3, 4, 4, 6, 7 et 1, 2, 3, 4, 5, 6, \text{1 000 000} admettent respectivement pour moyenne 4 et \text{142 860}. La deuxième série admet donc une moyenne qui est supérieure à toutes les valeurs de la série sauf 1 000 000.
La variance et l'écart type
L'écart type est un outil statistique qui permet d'estimer la dispersion des valeurs par rapport à la moyenne. Sa définition est basée sur le calcul de la variance d'une série statistique.
Variance d'une série statistique
On appelle variance d'une série statistique, notée V, le réel :
V = \dfrac{n_1(x_1 - \bar{x})^2 + \ldots + n_p(x_p - \bar{x})^2}{N}
On peut résumer la formule à l'aide de l'écriture \sum d'une somme automatique :
V = \dfrac{1}{N} \sum_{i =1}^{p} n_i (x_i - \bar{x})^2
où les x_i sont les valeurs de la série, les n_i leurs effectifs respectifs, N l'effectif total, et \bar{x} la moyenne pondérée.
On considère la série suivante d'effectif total n=12 et de moyenne \bar{x}=40{,}75.
Pointure x_i | 39 | 40 | 41 | 42 | 44 | Total |
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
On peut calculer la variance de cette série statistique par :
V = \dfrac{2 \times (39 - 40{,}75)^2 + 3\times ( 40 - 40{,}75)^2 + 5\times(41 - 40{,}75)^2 + 1\times(42-40{,}75)^2 + 1\times(44-40{,}75)^2}{12} = 1{,}6875
Puisque la variance est une somme de termes mis au carré, la variance est un nombre positif.
La variance peut également être calculée par la formule suivante :
V= \dfrac{1}{N}\left( n_1 x_1^2 + n_2 x_2^2 + \ldots + n_p x_p^2\right) - \bar{x}^2
qui s'écrit à l'aide de la somme automatique \sum :
V = \dfrac{1}{N} \left( \sum_{i = i}^n n_i x_i^2\right) - \bar{x}^2
On considère la série suivante d'effectif total n=12 et de moyenne pondérée \bar{x}=40{,}75.
Pointure x_i | 39 | 40 | 41 | 42 | 44 | Total |
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
On peut calculer la variance de cette série statistique par :
V = \dfrac{1}{12}\left(2\times 39^2 + 3\times 40^2 + 5\times 41^2 + 1\times 42^2 + 1\times 44^2\right) - 40{,}75^2 = 1{,}6875
Écart type
On définit l'écart type, noté \sigma, comme la racine carrée de la variance :
\sigma = \sqrt{V}
\sigma est bien défini puisque V\geq 0.
On considère la série statistique de variance V = 1{,}6875 :
Pointure x_i | 39 | 40 | 41 | 42 | 44 | Total |
Effectif n_i | 2 | 3 | 5 | 1 | 1 | 12 |
L'écart type est donc :
\sigma = \sqrt{V} = \sqrt{1{,}6875} \approx 1{,}299038
La variance donne une mesure de la valeur moyenne des carrés des écarts à la moyenne. Elle fournit donc une indication sur la dispersion des données par rapport à la moyenne. On ne peut pas l'utiliser directement comme indicateur de dispersion car elle ne s'exprime pas dans la même unité que les valeurs de la série. C'est pourquoi on a défini l'écart type.