Statistica I

Esame 29 Febbraio 2024

Autore/Autrice
Affiliazione

Tommaso Rigon

DEMS

Problema 1

Il 39esimo campionato nazionale di sci dell’Associazione Nazionale Circoli Italiani Universitari (ANCIU) si è svolto dal 28 gennaio al 4 febbraio 2024. Alla gara di slalom gigante maschile hanno partecipato n = 215 atleti.

La variabile tempo misura i secondi impiegati per tagliare il traguardo. La funzione di ripartizione empirica della variabile tempo è disegnata nel seguito. Sono inoltre state disegnate delle linee orizzontali in corrispondenza dei valori 0.25,0.5,0.75.

  1. Si dia la definizione di funzione di ripartizione empirica F(x) e si ottenga un valore approssimativo di F(70) sulla base dei dati precedenti.

  2. Sapendo che F(43) = 0.1116279, si dica quanti atleti hanno tagliato il traguardo con un tempo minore o uguale di 43 secondi.

  3. Sulla base del grafico precedente, si ottenga un valore approssimativo per la mediana della variabile tempo. Si ottengano inoltre dei valori approssimativi per il primo ed il terzo quartile.

  4. Si ottengano quindi degli indici di variabilità e di asimmetria basati sui valori ottenuti al punto precedente. Si commentino i risultati.

  5. Sono presenti valori anomali? Perchè? Si disegni quindi un boxplot utilizzando i valori ottenuti ai punti precedenti senza disegnare gli eventuali valori anomali.

Problema 2

Il 39esimo campionato nazionale di sci dell’Associazione Nazionale Circoli Italiani Universitari (ANCIU) si è svolto dal 28 gennaio al 4 febbraio 2024.

Ciascun ateneo ha partecipato alla gara di slalom gigante maschile con un certo numero di atleti (partecipanti), totalizzando un certo punteggio di squadra. Le osservazioni relative agli n = 14 atenei con più di 5 partecipanti sono riportate nella tabella seguente.

ateneo partecipanti punteggio
BOLOGNA 14 3382
BRESCIA 8 1818
CA FOSCARI 7 1545
CAGLIARI 9 1131
CAMERINO 7 1359
CATANIA 9 903
CHIETI 7 1031
COSENZA 33 4498
FIRENZE 22 4182
GENOVA 12 2663
MILANO BICOCCA 18 2869
MILANO STATALE 22 2861
PADOVA 18 4558
PARMA 8 1023
  1. Si rappresentino graficamente le variabili partecipanti e punteggio tramite un diagramma a dispersione.

  2. Si specifichi un modello di regressione per studiare il punteggio medio (y) in funzione del numero di partecipanti (x). Si stimi tale modello.

  3. Si ottenga un indice di bontà d’adattamento per il modello stimato al punto precedente. Si ottenga inoltre la varianza residuale di tale modello.

  4. Si supponga che il numero di partecipanti per ateneo non sia in alcun modo collegato alle capacità degli atleti. Gli organizzatori della gara auspicano che il numero di partecipanti, a parità di capacità, non influenzi il punteggio della squadra. I dati raccolti sono compatibili con questa affermazione? Perchè?

  5. Si ottengano i valori dei residui per gli atenei Milano Bicocca, Padova e Cosenza. Come è possibile interpretare il valore di questi residui?

  6. Sulla base del modello stimato in precedenza, quanti punti avrebbe totalizzato Milano Bicocca (o un qualunque altro ateneo) se avesse gareggiato con 30 atleti?

Problema 3

Siano x_1,\dots,x_n ed y_1,\dots,y_n due insiemi di dati. Dopo aver spiegato il contesto del problema, si dimostri che le stime ai minimi quadrati per prevedere y in funzione di x tramite regressione lineare sono \hat{\beta} = \text{cov}(x, y) / \text{var}(x) e \hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}.