Esame del 9 Luglio 2014
Statistics III - CdL SSE
Homepage
Il dataset ships
Il dataset ships
contenuto nella libreria MASS
riguarda n = 40 navi. Le variabili sono:
type
: tipo di nave
year
: anno di costruzione
period
: periodo di operatività
service
: numero totale di mesi di servizio
incidents
: numero di incidenti
Facendo uso del software R, si risponda alle seguenti domande:
Stabilire se la variabile risposta
incidents
può ritenersi normalmente distribuita, portando argomentazioni qualitative.Individuare le posizioni delle navi che non hanno mai viaggiato, eliminarle dal dataset e giustificare tale eliminazione.
Dopo aver ricodificato la variabile
period
come qualitativa, stimare un modello lineare con rispostaincidents
ed esplicative tutte le rimanenti. Si riportino:- La stima dell’iperpiano di regressione.
- Il p-value del test per la bontà del modello (modello stimato vs modello nullo) commentando ipotesi nulla, valore numerico ottenuto e giustificando i gradi di libertà della statistica test.
- Un unico coefficiente di regressione è statisticamente significativo all’1%. Quale? Si fornisca inoltre una spiegazione qualitativa sul motivo per cui questo avviene.
- La stima dell’intercetta \hat{\beta}_0 si può interpretare come numero medio di incidenti previsto dal modello per una nave con quali caratteristiche?
Stimare un GLM con risposta
incidents
ed esplicative tutte le rimanenti (senza interazioni). Qualora lo si ritenga opportuno si inserisca un offset relativo ad un’opportuna trasformata della variabile esplicativa che esprime il numero di esposizioni (modello di tasso). Si riportino:- L’equazione che esprime la risposta media stimata in funzione delle esplicative (equazione del modello stimato).
- Il p-value del test per la bontà del modello (modello stimato vs modello nullo) basato sulla devianza commentando ipotesi nulla, valore numerico ottenuto e giustificando i gradi di libertà della statistica test.
- L’equazione che esprime la risposta media stimata in funzione delle esplicative (equazione del modello stimato).
Si individuino le unità che sono al contempo influenti e potenzialmente “anomale” (outlier) chiarendo quali misure/grafici sono stati usati allo scopo.
Dopo avere fornito la funzione di varianza del modello considerato, si fornisca un grafico utile a valutarne l’appropriatezza commentando il risultato ottenuto.
Omessa.
È presente sovradispersione? Se si, si provi a trattarla tramite una quasi verosimiglianza e si commentino i risultati ottenuti.
Si fornisca ’interpretazione della stima del coefficiente della esplicativa
typeB
.
Teoria
Si illustri il concetto di devianza nell’ambito dei glm e se ne illustri l’utilizzo al fine di confrontare due glm annidati.
Considerato un GLM per risposta binaria, si derivino la funzione della media, della varianza ed il link canonico.