Statistica I
Esame 29 Febbraio 2024
Problema 1
Il 39esimo campionato nazionale di sci dell’Associazione Nazionale Circoli Italiani Universitari (ANCIU) si è svolto dal 28 gennaio al 4 febbraio 2024. Alla gara di slalom gigante maschile hanno partecipato n = 215 atleti.
La variabile tempo
misura i secondi impiegati per tagliare il traguardo. La funzione di ripartizione empirica della variabile tempo
è disegnata nel seguito. Sono inoltre state disegnate delle linee orizzontali in corrispondenza dei valori 0.25,0.5,0.75.
Si dia la definizione di funzione di ripartizione empirica F(x) e si ottenga un valore approssimativo di F(70) sulla base dei dati precedenti.
Sapendo che F(43) = 0.1116279, si dica quanti atleti hanno tagliato il traguardo con un tempo minore o uguale di 43 secondi.
Sulla base del grafico precedente, si ottenga un valore approssimativo per la mediana della variabile
tempo
. Si ottengano inoltre dei valori approssimativi per il primo ed il terzo quartile.Si ottengano quindi degli indici di variabilità e di asimmetria basati sui valori ottenuti al punto precedente. Si commentino i risultati.
Sono presenti valori anomali? Perchè? Si disegni quindi un boxplot utilizzando i valori ottenuti ai punti precedenti senza disegnare gli eventuali valori anomali.
Problema 2
Il 39esimo campionato nazionale di sci dell’Associazione Nazionale Circoli Italiani Universitari (ANCIU) si è svolto dal 28 gennaio al 4 febbraio 2024.
Ciascun ateneo
ha partecipato alla gara di slalom gigante maschile con un certo numero di atleti (partecipanti
), totalizzando un certo punteggio
di squadra. Le osservazioni relative agli n = 14 atenei con più di 5 partecipanti sono riportate nella tabella seguente.
ateneo |
partecipanti |
punteggio |
---|---|---|
BOLOGNA | 14 | 3382 |
BRESCIA | 8 | 1818 |
CA FOSCARI | 7 | 1545 |
CAGLIARI | 9 | 1131 |
CAMERINO | 7 | 1359 |
CATANIA | 9 | 903 |
CHIETI | 7 | 1031 |
COSENZA | 33 | 4498 |
FIRENZE | 22 | 4182 |
GENOVA | 12 | 2663 |
MILANO BICOCCA | 18 | 2869 |
MILANO STATALE | 22 | 2861 |
PADOVA | 18 | 4558 |
PARMA | 8 | 1023 |
Si rappresentino graficamente le variabili
partecipanti
epunteggio
tramite un diagramma a dispersione.Si specifichi un modello di regressione per studiare il
punteggio
medio (y) in funzione del numero dipartecipanti
(x). Si stimi tale modello.Si ottenga un indice di bontà d’adattamento per il modello stimato al punto precedente. Si ottenga inoltre la varianza residuale di tale modello.
Si supponga che il numero di partecipanti per ateneo non sia in alcun modo collegato alle capacità degli atleti. Gli organizzatori della gara auspicano che il numero di
partecipanti
, a parità di capacità, non influenzi ilpunteggio
della squadra. I dati raccolti sono compatibili con questa affermazione? Perchè?Si ottengano i valori dei residui per gli atenei Milano Bicocca, Padova e Cosenza. Come è possibile interpretare il valore di questi residui?
Sulla base del modello stimato in precedenza, quanti punti avrebbe totalizzato Milano Bicocca (o un qualunque altro ateneo) se avesse gareggiato con 30 atleti?
Problema 3
Siano x_1,\dots,x_n ed y_1,\dots,y_n due insiemi di dati. Dopo aver spiegato il contesto del problema, si dimostri che le stime ai minimi quadrati per prevedere y in funzione di x tramite regressione lineare sono \hat{\beta} = \text{cov}(x, y) / \text{var}(x) e \hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}.