Statistica I

Esercitazione 5: covarianza, correlazione, regressione lineare semplice

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Homepage

Alcuni dei problemi di questa esercitazione non sono stati svolti a lezione. Si consiglia agli studenti di provare a risolvere i problemi autonomamente.

Tabacco e bevande alcoliche

I risultati di un’indagine del governo britannico sulla spesa delle famiglie possono essere utilizzati per investigare sulla relazione tra l’ammontare speso per i tabacchi e quello speso per le bevande alcoliche.

La seguente tabella riporta, per n = 10 regioni della Gran Bretagna, la spesa settimanale media per famiglia per i due capitoli di spesa, espressa in sterline. I dati sono riferiti al 1981.

Regione Alcolici Tabacchi
North 6.47 4.03
Yorkshire 6.13 3.76
Northeast 6.19 3.77
East Midlands 4.89 3.34
West Midlands 5.63 3.47
East Anglia 4.52 2.92
Southeast 5.89 3.2
Southwest 4.79 2.71
Wales 5.27 3.53
Scotland 6.08 4.51

Si valuti la funzione di regressione tra le due variabili (usando la variabile alcolici come esplicativa).

In primo luogo disegniamo graficamente i dati tramite uno scatterplot

Valutiamo quindi le principali quantità d’interesse, dove x_1,\dots,x_{10} rappresentano gli alcolici e y_1,\dots,y_{10} rappresentano invece i tabacchi. Di conseguenza, avremo che:

\sum_{i=1}^nx_i y_i = 199.38, \qquad \sum_{i=1}^nx_i = 55.86, \qquad \sum_{i=1}^ny_i = 35.24.

È inoltre possibile calcolare le seguenti quantità

\sum_{i=1}^nx_i^2 = 316.169, \qquad \sum_{i=1}^ny_i^2 = 126.7. Utilizzando le quantità del punto precedente, possiamo quindi ottenere la stima ai minimi quadrati (\hat{\alpha},\hat{\beta}) di un modello di regressione lineare semplice. In particolare, avremo che:

\hat{\beta} = \frac{\text{cov}(x,y)}{\text{var}(x)} = \frac{19.938 - 5.586\times 3.524}{31.617 - 5.586^2}= 0.611. Si ha infatti che \text{cov}(x,y) = 19.938 - 5.586\times 3.524 = 0.252936 mentre \text{var}(x) = 31.617 - 5.586^2 = 0.4136. Inoltre avremo che:

\hat{\alpha} = \bar{y} - \hat{\beta} \bar{x} = \frac{35.24}{10} - 0.611\frac{55.86}{10} = 0.111. I valori previsti si ottengono quindi tramite l’equazione:

\hat{y}_i = 0.111 + 0.611x_i.

Per comodità, riportiamo i valori previsti ed i residui nella seguente tabella

x_i y_i \hat{y}_i r_i
6.47 4.03 4.06 -0.03
6.13 3.76 3.86 -0.10
6.19 3.77 3.89 -0.12
4.89 3.34 3.10 0.24
5.63 3.47 3.55 -0.08
4.52 2.92 2.87 0.05
5.89 3.20 3.71 -0.51
4.79 2.71 3.04 -0.33
5.27 3.53 3.33 0.20
6.08 4.51 3.83 0.68

Per valutare la bontà d’adattamento del modello usando l’indice R^2 si può procedere in due modi: i) calcolare il coefficiente di correlazione \rho ed elevarlo al quadrato, oppure ii) attraverso il calcolo della varianza dei residui.

Dalla precedente tabella, so ottiene che \text{var}(r) = n^{-1}\sum_{i=1}^n r_i^2 = 0.096. Pertanto, otteniamo che

R^2 = 1 - \frac{\text{var}(r)}{\text{var}(y)} = 1 - \frac{0.096}{12.67 - 3.524^2} = 0.62. Alternativamente avremmo potuto calcolare l’indice di correlazione \rho = \frac{\text{cov}(x,y)}{\sqrt{\text{var}(x)}\sqrt{\text{var}(y)}} = \frac{0.2529}{\sqrt{0.4136 \times 0.2514}} = 0.78428. E pertanto si otterà che R^2 = \rho^2 = 0.62. Concludiamo l’analisi rappresentano la retta di regressione sovrapposta ai dati.

Statura di padri e figli

La tabella che segue mostra le stature per un gruppo di padri e figli.

Statura padre Statura figlio
165 167
170 169
180 181
172 171
179 180
174 176
176 180
168 171
181 179
173 174
170 173
178 176
176 178

Presupponendo una relazione lineare tra le stature dei padri e le stature dei figli, si dica che statura ci si aspetta per il figlio di un padre alto 170.5 cm.

In primo luogo disegniamo graficamente i dati tramite uno scatterplot

Valutiamo quindi le principali quantità d’interesse, dove x_1,\dots,x_{13} rappresentano le stature dei padri e y_1,\dots,y_{13} rappresentano invece le stature dei figli. Di conseguenza, avremo che:

\sum_{i=1}^nx_i y_i = 396096, \qquad \sum_{i=1}^nx_i = 2262, \qquad \sum_{i=1}^ny_i = 2275.

È inoltre possibile calcolare le seguenti quantità

\sum_{i=1}^nx_i^2 = 393876, \qquad \sum_{i=1}^ny_i^2 = 398375. Utilizzando le quantità del punto precedente, possiamo quindi ottenere la stima ai minimi quadrati (\hat{\alpha},\hat{\beta}) di un modello di regressione lineare semplice. In particolare, avremo che:

\hat{\beta} = \frac{\text{cov}(x,y)}{\text{var}(x)} = \frac{30468.92 - 174\times 175}{30298.15 - 174^2}= 0.854. Si ha infatti che \text{cov}(x,y) = 30468.92 - 174\times 175 = 18.92 mentre \text{var}(x) = 30298.15 - 174^2 = 22.15. Inoltre avremo che:

\hat{\alpha} = \bar{y} - \hat{\beta} \bar{x} = 175 - 0.854\times 174 = 26.404. I valori previsti si ottengono quindi tramite l’equazione:

\hat{y}_i = 26.404 + 0.854 x_i. Pertanto, il valore previsto cercato è pari a 26.404 + 0.854 \times 170.5 = 172.011.