Statistica I

Esercitazione 6: analisi della varianza

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Homepage

Classi e voti di maturità

Di due gruppi di studenti appartenenti a due sezioni della stessa scuola sono noti i punteggi dell’esame di maturità. I dati sono riportati nella seguente tabella

Voto di maturità Classe
61 A
68 A
83 A
86 A
73 A
68 B
74 B
82 B
83 B
  1. Si ottengano le medie e le varianze di ciascun gruppo.

  2. Si valuti il rapporto di correlazione \eta^2 tra le variabili voto di maturità e la variabile classe. Si commentino i risultati.

In primo luogo, calcoliamo le medie e la devianze / varianze campionarie per ciascun gruppo, che sono riassunte nella tabella seguente:

Classe \bar{x}_j \sigma^2_j d_j^2 n_j
A 74.2 86.16 430.8 5
B 76.75 37.69 150.75 4

La media globale è pertanto pari a (5\bar{x}_1 + 4 \bar{x}_2)/9 = 75.33. La devianza tra i gruppi è pertanto pari a

\mathscr{D}_\text{tr}^2 = \sum_{j=1}^2n_j(\bar{x}_j - \bar{x})^2 = 5(74.2 - 75.33)^2 + 4(76.75 - 75.33)^2 = 14.45.

Invece, la devianza entro i gruppi è pari a:

\mathscr{D}_\text{en}^2 = d_1^2 + d_2^2 = 430.8 + 150.75 = 581.55.

Quindi otteniamo che la devianza complessiva è pari a \mathscr{D}^2 = \mathscr{D}_\text{en}^2 + \mathscr{D}_\text{tr}^2 = 14.45 + 581.55 = 596. Il rapporto di correlazione è pertanto pari a:

\eta^2 = 1 - \frac{\mathscr{D}_\text{en}^2}{\mathscr{D}^2} = 1 - \frac{581.55}{596} = 0.0242.

Di conseguenza, la dipendenza in media è molto debole. Si noti che è possibile calcolare la devianza totale anche tramite calcolo diretto, ovvero ponendo:

\mathscr{D}^2 = \sum_{j=1}^2\sum_{i=1}^{n_j}(x_{ij} - \bar{x})^2 = (61 - 75.33)^2 + \cdots+ (83 - 75.33)^2 = 596.

Pressione sistolica e ipertensione

Per verificare tre differenti strategie mediche per trattare l’ipertensione, sono state individuate n = 18 persone di sesso maschile, leggermente sovrappeso, con abitudini sedentarie e con problemi di ipertensione (pressione sistolica maggiore di 100mmHg). Tali persone sono state poi suddivise in tre gruppi:

  1. Il primo gruppo (5 persone) ha seguito una terapia farmacologica.

  2. Il secondo gruppo (7 persone) ha seguito una dieta prefissata.

  3. Il terzo gruppo (6 persone) ha seguito la dieta del secondo gruppo ma ha anche svolto regolarmente delle attività fisiche.

La pressione sistolica è stata misurata sia all’inizio che dopo 3 mesi dall’ingresso nella studio. La seguente tabella mostra, per ognuno dei 18 individui, la differenza tra la pressione iniziale e quella rilevata dopo 3 mesi.

1 2 3 4 5 6 7
Solo farmaco 21 20 7 11 16
Solo dieta -9 13 1 2 24 6 9
Dieta & esercizio fisico 19 18 21 8 8 18

  1. Perchè secondo voi è stata utilizzata la differenza tra la pressione iniziale e quella finale e non direttamente quest’ultima?

  2. Sulla base dei dati disponibili, quale strategia sembra funzionare meglio? Si risponda con opportuni indici.

  3. Si quantifichi la correlazione tra strategia utilizzata e la differenza in pressione sistolica.

Calcoliamo le medie e la devianze / varianze campionarie per ciascun gruppo, che sono riassunte nella tabella seguente:

Strategia \bar{x}_j \sigma^2_j d_j n_j
Solo formaco 15 28.4 142 5
Solo dieta 6.57 92.24 645.71 7
Dieta & esercizio fisico 15.33 27.89 167.33 6

Di conseguenza, la strategia che sembra funzionare meglio è quella basata sulla dieta insieme all’esercizio fisico. Inoltre, la media globale è pari a (5\bar{x}_1 + 7 \bar{x}_2 + 6\bar{x}_3)/18 = 11.83. La devianza tra i gruppi è pertanto pari a

\mathscr{D}_\text{tr}^2 = \sum_{j=1}^3n_j(\bar{x}_j - \bar{x})^2 = 5(15 - 11.83)^2 + 7(6.57 - 11.83)^2 + 6(15.33 - 11.83)^2= 317.42.

Invece, la devianza entro i gruppi è pari a:

\mathscr{D}_\text{en}^2 = d_1^2 + d_2^2 + d_3^2= 142 + 645.71 + 167.33 = 955.04.

Quindi otteniamo che la devianza complessiva è pari a \mathscr{D}^2 = \mathscr{D}_\text{en}^2 + \mathscr{D}_\text{tr}^2 = 317.42 + 955.04 = 1272.5. Il rapporto di correlazione è pertanto pari a:

\eta^2 = 1 - \frac{\mathscr{D}_\text{en}^2}{\mathscr{D}^2} = 1 - \frac{955.04}{1272.5} = 0.25.

Di conseguenza, la dipendenza in media è moderata.