Une donnée est une valeur observée ou mesurée. Un caractère est la propriété que l'on mesure (ex. taille, note, âge). Les données peuvent être qualitatives (catégories) ou quantitatives (nombres).
Pour organiser les données, on dresse un tableau de fréquences indiquant la fréquence absolue (nombre d'occurrences) et la fréquence relative (pourcentage).
Les notes (sur 10) de 20 élèves sont : 6, 7, 8, 7, 9, 6, 8, 8, 7, 10, 6, 9, 8, 7, 6, 9, 8, 7, 9, 10
| Note | Fréquence absolue | Fréquence relative |
|---|---|---|
| 6 | 4 | 20 % |
| 7 | 5 | 25 % |
| 8 | 5 | 25 % |
| 9 | 4 | 20 % |
| 10 | 2 | 10 % |
| Total | 20 | 100 % |
Lorsque les données sont nombreuses ou continues, on les regroupe en classes (intervalles). Toutes les classes ont généralement la même étendue.
Résultats (sur 100) de 30 élèves, groupés par classes de 10 :
| Classe | Milieu de classe | Fréquence |
|---|---|---|
| [50, 60[ | 55 | 3 |
| [60, 70[ | 65 | 7 |
| [70, 80[ | 75 | 11 |
| [80, 90[ | 85 | 6 |
| [90, 100] | 95 | 3 |
Les mesures de tendance centrale résument un ensemble de données par une valeur représentative.
Données : 6, 7, 8, 7, 9, 6, 8, 8, 7, 10 ($n = 10$)
$$\bar{x} = \frac{6+7+8+7+9+6+8+8+7+10}{10} = \frac{76}{10} = 7{,}6$$
La médiane est la valeur qui partage les données ordonnées en deux moitiés égales. Elle est notée $M_e$ ou $Q_2$.
Données ordonnées : 6, 6, 7, 7, 7, 8, 8, 8, 9, 10
$$M_e = \frac{7 + 8}{2} = 7{,}5$$
Le mode est la valeur (ou la classe) qui apparaît le plus souvent. Un ensemble peut être bimodal (deux modes) ou ne pas avoir de mode.
Dans l'exemple ci-dessus, 7 et 8 apparaissent tous les deux 3 fois → bimodal : 7 et 8.
La dispersion indique à quel point les données sont étalées autour de la tendance centrale.
Pour 6, 6, 7, 7, 7, 8, 8, 8, 9, 10 : étendue $= 10 - 6 = 4$.
Les quartiles divisent les données ordonnées en quatre parties égales :
Données : 6, 6, 7, 7, 7, 8, 8, 8, 9, 10
Moitié inférieure : 6, 6, 7, 7, 7 → $Q_1 = 7$
Médiane : $Q_2 = 7{,}5$
Moitié supérieure : 8, 8, 8, 9, 10 → $Q_3 = 8$
L'EIQ représente l'étendue des 50 % centraux des données. Il est résistant aux valeurs aberrantes.
Dans l'exemple : EIQ $= 8 - 7 = 1$.
L'histogramme représente des données continues groupées par classes. Les barres sont adjacentes (sans espace entre elles).
STAT·1Figure 1 — Histogramme des résultats de 30 élèves (classes de 10 points).
La boîte à moustaches représente visuellement les cinq statistiques clés : minimum, $Q_1$, $Q_2$, $Q_3$, maximum.
STAT·2Figure 2 — Boîte à moustaches : min, Q₁, médiane, Q₃, max.
Le nuage de points représente les paires de données $(x, y)$ dans un système d'axes. On l'utilise pour visualiser le lien entre deux variables.
| Type | Description | Coefficient $r$ |
|---|---|---|
| Forte positive | $y$ augmente avec $x$ | $0{,}8 \le r \le 1$ |
| Faible positive | Tendance légère à la hausse | $0 < r < 0{,}8$ |
| Nulle | Aucun lien | $r \approx 0$ |
| Faible négative | Tendance légère à la baisse | $-0{,}8 < r < 0$ |
| Forte négative | $y$ diminue quand $x$ augmente | $-1 \le r \le -0{,}8$ |
STAT·3Figure 3 — Nuage de points : heures d'étude par semaine vs note obtenue (corrélation positive forte).
Ce nuage montre une corrélation positive forte : plus un élève étudie, plus sa note tend à être élevée.
Les durées (en minutes) de 12 trajets en autobus sont :
18, 22, 25, 19, 30, 22, 27, 20, 25, 24, 22, 35
a) Calculez la moyenne et la médiane.
b) Trouvez $Q_1$, $Q_3$ et l'EIQ.
c) La valeur 35 est-elle une valeur aberrante ? Justifiez.
a) Tri : 18, 19, 20, 22, 22, 22, 24, 25, 25, 27, 30, 35 ($n = 12$)
$$\bar{x} = \frac{18+19+20+22+22+22+24+25+25+27+30+35}{12} = \frac{289}{12} \approx 24{,}1 \text{ min}$$
Médiane (positions 6 et 7) : $M_e = \dfrac{22 + 24}{2} = 23$ min
b) Moitié inférieure : 18, 19, 20, 22, 22, 22 → $Q_1 = 20$ min
Moitié supérieure : 24, 25, 25, 27, 30, 35 → $Q_3 = 26$ min
EIQ $= Q_3 - Q_1 = 26 - 20 = 6$ min
c) Clôture supérieure $= Q_3 + 1{,}5 \times \text{EIQ} = 26 + 9 = 35$.
La valeur 35 est exactement à la clôture. Selon la définition stricte (> clôture), elle n'est pas aberrante, mais elle est à la limite.
Une enquête auprès de 5 élèves donne :
| Élève | Temps d'écran (h/j) | Note moyenne (%) |
|---|---|---|
| A | 1 | 88 |
| B | 3 | 75 |
| C | 5 | 65 |
| D | 4 | 70 |
| E | 2 | 82 |
a) Tracez un nuage de points (temps d'écran en abscisse).
b) Décrivez le type et la force de la corrélation.
c) Peut-on conclure que l'écran cause la baisse des notes ?
a) Points : (1, 88), (2, 82), (3, 75), (4, 70), (5, 65) — à tracer sur papier quadrillé.
b) La tendance est clairement à la baisse : quand le temps d'écran augmente, la note diminue. Il s'agit d'une corrélation négative forte.
c) Non. La corrélation ne prouve pas la causalité. D'autres facteurs peuvent intervenir : habitudes de sommeil, qualité de l'étude, motivation, etc.
Les résultats d'un test (sur 20) d'une classe de 16 élèves sont :
8, 11, 13, 14, 12, 16, 10, 15, 14, 12, 13, 17, 11, 9, 15, 18
a) Calculez la moyenne, la médiane, le mode et l'étendue.
b) Trouvez $Q_1$, $Q_2$, $Q_3$ et l'EIQ.
c) Décrivez la distribution à l'aide d'une boîte à moustaches (valeurs seulement).
Tri : 8, 9, 10, 11, 11, 12, 12, 13, 13, 14, 14, 15, 15, 16, 17, 18
a)
$\bar{x} = \dfrac{8+9+10+11+11+12+12+13+13+14+14+15+15+16+17+18}{16} = \dfrac{208}{16} = 13$
Médiane (positions 8 et 9) : $M_e = \dfrac{13+13}{2} = 13$
Mode : 11, 12, 13, 14, 15 (tous apparaissent 2 fois) → pas de mode unique
Étendue $= 18 - 8 = 10$
b)
Moitié inférieure (8 premiers) : 8, 9, 10, 11, 11, 12, 12, 13 → $Q_1 = \dfrac{11+11}{2} = 11$
$Q_2 = 13$
Moitié supérieure (8 derniers) : 13, 14, 14, 15, 15, 16, 17, 18 → $Q_3 = \dfrac{15+15}{2} = 15$
EIQ $= 15 - 11 = 4$
c) Boîte à moustaches :
min = 8 | $Q_1$ = 11 | $Q_2$ = 13 | $Q_3$ = 15 | max = 18
La distribution est presque symétrique (médiane = moyenne = 13).