Chapitre 2 — Statistiques

Secondaire 4  •  Programme québécois  •  Niveau intermédiaire

📋 Table des matières

  1. Collecte et organisation des données
  2. Mesures de tendance centrale
  3. Mesures de dispersion
  4. Représentations graphiques
  5. Corrélation et nuage de points
  6. Exercices de synthèse

1. Collecte et organisation des données

Définition

Une donnée est une valeur observée ou mesurée. Un caractère est la propriété que l'on mesure (ex. taille, note, âge). Les données peuvent être qualitatives (catégories) ou quantitatives (nombres).

1.1 Tableau de fréquences

Pour organiser les données, on dresse un tableau de fréquences indiquant la fréquence absolue (nombre d'occurrences) et la fréquence relative (pourcentage).

Exemple

Les notes (sur 10) de 20 élèves sont : 6, 7, 8, 7, 9, 6, 8, 8, 7, 10, 6, 9, 8, 7, 6, 9, 8, 7, 9, 10

NoteFréquence absolueFréquence relative
6420 %
7525 %
8525 %
9420 %
10210 %
Total20100 %

1.2 Données groupées par classes

Lorsque les données sont nombreuses ou continues, on les regroupe en classes (intervalles). Toutes les classes ont généralement la même étendue.

Exemple

Résultats (sur 100) de 30 élèves, groupés par classes de 10 :

ClasseMilieu de classeFréquence
[50, 60[553
[60, 70[657
[70, 80[7511
[80, 90[856
[90, 100]953

2. Mesures de tendance centrale

Les mesures de tendance centrale résument un ensemble de données par une valeur représentative.

2.1 Moyenne arithmétique $\bar{x}$

$$\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{\displaystyle\sum_{i=1}^{n} x_i}{n}$$
Exemple

Données : 6, 7, 8, 7, 9, 6, 8, 8, 7, 10  ($n = 10$)

$$\bar{x} = \frac{6+7+8+7+9+6+8+8+7+10}{10} = \frac{76}{10} = 7{,}6$$

Attention : La moyenne est sensible aux valeurs extrêmes (valeurs aberrantes). Un seul résultat très élevé ou très bas peut fausser la moyenne.

2.2 Médiane

Définition

La médiane est la valeur qui partage les données ordonnées en deux moitiés égales. Elle est notée $M_e$ ou $Q_2$.

  • Si $n$ est impair : la médiane est la valeur à la position $\dfrac{n+1}{2}$.
  • Si $n$ est pair : la médiane est la moyenne des valeurs aux positions $\dfrac{n}{2}$ et $\dfrac{n}{2}+1$.
Exemple ($n = 10$, pair)

Données ordonnées : 6, 6, 7, 7, 7, 8, 8, 8, 9, 10

$$M_e = \frac{7 + 8}{2} = 7{,}5$$

2.3 Mode

Définition

Le mode est la valeur (ou la classe) qui apparaît le plus souvent. Un ensemble peut être bimodal (deux modes) ou ne pas avoir de mode.

Dans l'exemple ci-dessus, 7 et 8 apparaissent tous les deux 3 fois → bimodal : 7 et 8.

3. Mesures de dispersion

La dispersion indique à quel point les données sont étalées autour de la tendance centrale.

3.1 Étendue

$$\text{Étendue} = x_{\max} - x_{\min}$$

Pour 6, 6, 7, 7, 7, 8, 8, 8, 9, 10 : étendue $= 10 - 6 = 4$.

3.2 Quartiles

Définition

Les quartiles divisent les données ordonnées en quatre parties égales :

  • $Q_1$ (premier quartile) : 25 % des données sont inférieures ou égales à $Q_1$
  • $Q_2$ (deuxième quartile) = médiane
  • $Q_3$ (troisième quartile) : 75 % des données sont inférieures ou égales à $Q_3$
Exemple

Données : 6, 6, 7, 7, 7, 8, 8, 8, 9, 10

Moitié inférieure : 6, 6, 7, 7, 7  →  $Q_1 = 7$

Médiane : $Q_2 = 7{,}5$

Moitié supérieure : 8, 8, 8, 9, 10  →  $Q_3 = 8$

3.3 Écart interquartile (EIQ)

$$\text{EIQ} = Q_3 - Q_1$$

L'EIQ représente l'étendue des 50 % centraux des données. Il est résistant aux valeurs aberrantes.

Dans l'exemple : EIQ $= 8 - 7 = 1$.

4. Représentations graphiques

4.1 Histogramme

L'histogramme représente des données continues groupées par classes. Les barres sont adjacentes (sans espace entre elles).

50–60 60–70 70–80 80–90 90–100 0 3 7 11 3 7 11 6 3 Résultats de 30 élèves

STAT·1Figure 1 — Histogramme des résultats de 30 élèves (classes de 10 points).

4.2 Boîte à moustaches (diagramme en boîte)

La boîte à moustaches représente visuellement les cinq statistiques clés : minimum, $Q_1$, $Q_2$, $Q_3$, maximum.

6 7 7,5 8 10 min Q₁ Q₂ Q₃ max

STAT·2Figure 2 — Boîte à moustaches : min, Q₁, médiane, Q₃, max.

5. Corrélation et nuage de points

5.1 Nuage de points

Le nuage de points représente les paires de données $(x, y)$ dans un système d'axes. On l'utilise pour visualiser le lien entre deux variables.

5.2 Types de corrélation

TypeDescriptionCoefficient $r$
Forte positive$y$ augmente avec $x$$0{,}8 \le r \le 1$
Faible positiveTendance légère à la hausse$0 < r < 0{,}8$
NulleAucun lien$r \approx 0$
Faible négativeTendance légère à la baisse$-0{,}8 < r < 0$
Forte négative$y$ diminue quand $x$ augmente$-1 \le r \le -0{,}8$
Heures d'étude par semaine Note obtenue (%) tendance 2 4 6 8 10 40 60 80 100 Nuage de points : heures d'étude vs note

STAT·3Figure 3 — Nuage de points : heures d'étude par semaine vs note obtenue (corrélation positive forte).

Ce nuage montre une corrélation positive forte : plus un élève étudie, plus sa note tend à être élevée.

Corrélation ≠ causalité. Une corrélation forte ne signifie pas qu'une variable cause l'autre. D'autres facteurs peuvent expliquer le lien observé.

6. Exercices de synthèse

Exercice 1

Les durées (en minutes) de 12 trajets en autobus sont :

18, 22, 25, 19, 30, 22, 27, 20, 25, 24, 22, 35

a) Calculez la moyenne et la médiane.
b) Trouvez $Q_1$, $Q_3$ et l'EIQ.
c) La valeur 35 est-elle une valeur aberrante ? Justifiez.

🔍 Voir la solution

a) Tri : 18, 19, 20, 22, 22, 22, 24, 25, 25, 27, 30, 35  ($n = 12$)

$$\bar{x} = \frac{18+19+20+22+22+22+24+25+25+27+30+35}{12} = \frac{289}{12} \approx 24{,}1 \text{ min}$$

Médiane (positions 6 et 7) : $M_e = \dfrac{22 + 24}{2} = 23$ min

b) Moitié inférieure : 18, 19, 20, 22, 22, 22 → $Q_1 = 20$ min

Moitié supérieure : 24, 25, 25, 27, 30, 35 → $Q_3 = 26$ min

EIQ $= Q_3 - Q_1 = 26 - 20 = 6$ min

c) Clôture supérieure $= Q_3 + 1{,}5 \times \text{EIQ} = 26 + 9 = 35$.

La valeur 35 est exactement à la clôture. Selon la définition stricte (> clôture), elle n'est pas aberrante, mais elle est à la limite.

Exercice 2

Une enquête auprès de 5 élèves donne :

ÉlèveTemps d'écran (h/j)Note moyenne (%)
A188
B375
C565
D470
E282

a) Tracez un nuage de points (temps d'écran en abscisse).
b) Décrivez le type et la force de la corrélation.
c) Peut-on conclure que l'écran cause la baisse des notes ?

🔍 Voir la solution

a) Points : (1, 88), (2, 82), (3, 75), (4, 70), (5, 65) — à tracer sur papier quadrillé.

b) La tendance est clairement à la baisse : quand le temps d'écran augmente, la note diminue. Il s'agit d'une corrélation négative forte.

c) Non. La corrélation ne prouve pas la causalité. D'autres facteurs peuvent intervenir : habitudes de sommeil, qualité de l'étude, motivation, etc.

Exercice 3 — Synthèse

Les résultats d'un test (sur 20) d'une classe de 16 élèves sont :

8, 11, 13, 14, 12, 16, 10, 15, 14, 12, 13, 17, 11, 9, 15, 18

a) Calculez la moyenne, la médiane, le mode et l'étendue.
b) Trouvez $Q_1$, $Q_2$, $Q_3$ et l'EIQ.
c) Décrivez la distribution à l'aide d'une boîte à moustaches (valeurs seulement).

🔍 Voir la solution

Tri : 8, 9, 10, 11, 11, 12, 12, 13, 13, 14, 14, 15, 15, 16, 17, 18

a)
$\bar{x} = \dfrac{8+9+10+11+11+12+12+13+13+14+14+15+15+16+17+18}{16} = \dfrac{208}{16} = 13$

Médiane (positions 8 et 9) : $M_e = \dfrac{13+13}{2} = 13$

Mode : 11, 12, 13, 14, 15 (tous apparaissent 2 fois) → pas de mode unique

Étendue $= 18 - 8 = 10$

b)
Moitié inférieure (8 premiers) : 8, 9, 10, 11, 11, 12, 12, 13 → $Q_1 = \dfrac{11+11}{2} = 11$
$Q_2 = 13$
Moitié supérieure (8 derniers) : 13, 14, 14, 15, 15, 16, 17, 18 → $Q_3 = \dfrac{15+15}{2} = 15$
EIQ $= 15 - 11 = 4$

c) Boîte à moustaches :
min = 8  |  $Q_1$ = 11  |  $Q_2$ = 13  |  $Q_3$ = 15  |  max = 18

La distribution est presque symétrique (médiane = moyenne = 13).