Esame del 9 Luglio 2014

Statistics III - CdL SSE

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Homepage

Analisi del dataset awards

Il dataset awards è disponibile a questo link e contiene i dati relativi a 200 studenti. Le variabili presenti sono:

  • num_awards: numero di premi ricevuti
  • prog: tipo di programma scolastico cui si è iscritti
  • math: voto ottenuto nell’esame finale di matematica
  • id: numerico identificativo dello studente

Facendo uso del software R, si risponda alle seguenti domande:

  1. Dopo aver riclassificato la variabile math in 6 classi, si costruisca un grafico che riporta l’andamento di num_awards al variare di math, distinto per programma scolastico (prog). Si commentino i risultati.

  2. Omessa.

  3. Si stimi un GLM opportuno, usando il legame canonico, avente come variabile risposta num_awards ed esplicative math e prog (senza interazioni). Si riportino:

    1. L’equazione che esprime la risposta media stimata in funzione delle esplicative (equazione del modello stimato).
    2. I p-value del test per la bontà del modello (modello stimato vs modello nullo), commentando ipotesi nulla, valore numerico ottenuto e giustificando i gradi di libertà della statistica test.
    3. Si giustifichi l’affermazione presente nell’output di Rdispersion parameter for Poisson family taken to be 1”.
  4. Si fornisca un’interpretazione per la stima del coefficiente della esplicativa math e si decida se tale interpretazione è coerente con il commento al grafico al punto (a).

  5. Si decida tramite un opportuno test se conservare o meno l’esplicativa prog nel modello. Si riporti la statistica test, i gradi di libertà, il p-value e si commenti il risultato.

  6. Dopo avere descritto la funzione varianza del modello considerato, si ottenga un grafico utile a valutarne l’appropriatezza commentando il risultato ottenuto.

  7. Si fornisca una stima per un ipotetico parametro aggiuntivo utile a trattare l’eventuale sovradispersione e si commenti il risultato ottenuto.

  8. Si fornisca una previsione per i numero di premi di due studenti entrambi con il voto massimo in matematica che seguano, rispettivamente, il programma “academic” e quello “general”.

Teoria

  1. Si illustrino i principali tipi di residui calcolabili nell’ambito dei GLM.

  2. Si fornisca la definizione di quasi verosimiglianza e si decida se tale concetto è utile l’ambito di un GLM con legame identità e funzione varianza costante.