Esame del 9 Luglio 2014
Statistics III - CdL SSE
Homepage
Analisi del dataset awards
Il dataset awards è disponibile a questo link e contiene i dati relativi a 200 studenti. Le variabili presenti sono:
num_awards: numero di premi ricevuti
prog: tipo di programma scolastico cui si è iscrittimath: voto ottenuto nell’esame finale di matematicaid: numerico identificativo dello studente
Facendo uso del software R, si risponda alle seguenti domande:
Dopo aver riclassificato la variabile
mathin 6 classi, si costruisca un grafico che riporta l’andamento dinum_awardsal variare dimath, distinto per programma scolastico (prog). Si commentino i risultati.Omessa.
Si stimi un GLM opportuno, usando il legame canonico, avente come variabile risposta
num_awardsed esplicativematheprog(senza interazioni). Si riportino:- L’equazione che esprime la risposta media stimata in funzione delle esplicative (equazione del modello stimato).
- I p-value del test per la bontà del modello (modello stimato vs modello nullo), commentando ipotesi nulla, valore numerico ottenuto e giustificando i gradi di libertà della statistica test.
- Si giustifichi l’affermazione presente nell’output di R “dispersion parameter for Poisson family taken to be 1”.
Si fornisca un’interpretazione per la stima del coefficiente della esplicativa
mathe si decida se tale interpretazione è coerente con il commento al grafico al punto (a).Si decida tramite un opportuno test se conservare o meno l’esplicativa
prognel modello. Si riporti la statistica test, i gradi di libertà, il p-value e si commenti il risultato.Dopo avere descritto la funzione varianza del modello considerato, si ottenga un grafico utile a valutarne l’appropriatezza commentando il risultato ottenuto.
Si fornisca una stima per un ipotetico parametro aggiuntivo utile a trattare l’eventuale sovradispersione e si commenti il risultato ottenuto.
Si fornisca una previsione per i numero di premi di due studenti entrambi con il voto massimo in matematica che seguano, rispettivamente, il programma “academic” e quello “general”.
Teoria
Si illustrino i principali tipi di residui calcolabili nell’ambito dei GLM.
Si fornisca la definizione di quasi verosimiglianza e si decida se tale concetto è utile l’ambito di un GLM con legame identità e funzione varianza costante.