Esame del 9 Luglio 2014
Statistics III - CdL SSE
Homepage
Analisi del dataset berk
Il dataset berk è disponibile a questo link e contiene i dati relativi a 4526 studenti che hanno fatto domanda di ammissione all’Università di Berkeley in un dato anno. Le variabili presenti sono:
Dept: il dipartimento presso il quale è stata fatta domanda
Gender: il genereAdmit: il numero di ammessiReject: il numero di respinti
Facendo uso del software R, si risponda alle seguenti domande:
Si ottenga una tabella a doppia entrata che, in corrispondenza di ciascuna combinazione delle esplicative
DepteGender, fornisca le percentuali degli ammessi (rispetto al totale degli studenti che hanno fatto domanda). Ad esempio: il 62,1% dei maschi che hanno fatto domanda presso il dipartimento A sono stati ammessi. Si forniscano inoltre le percentuali di ammessi distinte solamente perGender. Si commentino i risultati.Si stimi un GLM opportuno (senza interazioni) facendo ricorso al link canonico. Si riportino:
- le legge della distribuzione della variabile risposta.
- l’equazione che esprime la risposta media stimata in funzione delle esplicative (equazione del modello stimato)
- Un commento informale sul valore della devianza del modello
- Il p-value del test per la bontà del modello (modello stimato vs modello saturo), commentando ipotesi nulla e valore numerico ottenuto.
- Quale combinazione di
GendereDeptcontribuisce maggiormente alla devianza (cioè ha un valore d_i più elevato)? Suggerimento: basta ricordare in che relazione stanno d_i con i residui di devianza.
Si fornisca un’interpretazione per la stima del coefficiente della esplicativa
Gender. Tale interpretazione vi sembra coerente le percentuali di ammessi distinte per maschi e femmine calcolate nella seconda parte della domanda 1? Perchè?Si decida se esistono valori delle esplicative che rappresentano potenziali valori anomali e se tali valori sono influenti.
Si stimi un nuovo modello in cui sono stati esclusi i dati del dipartimento “A”. Si ottenga la nuova equazione del modello stimata, la devianza, e i gradi di libertà. Si commentino i risultati.
Si stimi un nuovo modello sui dati completi scegliendo un link alternativo a quello canonico e si confrontino i due modelli (domanda b. e domanda f.) in termini di AIC, frequenze assolute assolute di ammessi (arrotondate all’intero più vicino)
Come mai stimando (sui dati completi) un modello con interazioni la devianza, i residui di devianza e i gradi di libertà risultano tutti nulli?
Teoria
Si fornisca la definizione di famiglia di dispersione esponenziale e si decida se la distribuzione esponenziale, la cui densità è f(x; \mu) = \mu^{-1}e^{-x/\mu} con x > 0, \mu > 0, vi appartiene. In caso affermativo, fornire la funzione della media \mu(\theta) e della varianza v(\mu).
Omessa.