Esame del 27 Gennaio 2026
Statistics III - CdL SSE
Homepage
Il tempo a disposizione per lo svolgimento della prova è di 2 ore e 30 minuti. Si ricorda di firmare tutti i documenti che si intendono consegnare, indicando nome e numero di matricola.
Il voto finale corrisponde alla media delle due parti, ciascuna valutata su 30 punti. La prova si considera superata solo se si raggiunge la sufficienza (18/30) in entrambe le parti.
Parte I: analisi dei dati
Si considerino i dati anaesthetic della libreria faraway, relativi a uno studio condotto da un medico di un ospedale di Londra, che ha confrontato gli effetti di quattro anestetici utilizzati in interventi chirurgici maggiori su un totale di ottanta pazienti, suddivisi in quattro gruppi da 20. Le variabili presenti sono:
breath: tempo (in minuti) necessario per iniziare a respirare autonomamente, arrotondato al minuto più vicino;trgp: quattro gruppi di trattamento:A,B,CeD.
Facendo uso del software R, si risponda alle seguenti domande:
Alcuni valori di
breathsono esattamente pari a0minuti, che è un errore di arrotondamento. Si sostituisca a tali valori il numero0.25.Si ottengano dei boxplot per la variabile
breathper ciascuno dei quattro gruppi di pazienti (senza riportarli); si commentino i risultati. Si riportino inoltre le medie e le deviazioni standard di ciascun gruppo.Si stimi un modello lineare chiamato
m_linin cuibreathrappresenta la variabile risposta, mentretgrpè usata come variabile esplicativa. Si riporti:- L’equazione che esprime la risposta media stimata in funzione delle variabili esplicative (equazione del modello stimato), riportando i valori della stima di massima verosimiglianza;
- Un’interpretazione dei coefficienti stimati;
- La previsione fornita dal modello
m_linper ciascuno dei quattro gruppiA,B,C,D. Si commentino i risultati; - Il valore della statistica test e il p-value associato per confrontare il modello stimato con il modello nullo. Si riportino il sistema d’ipotesi e si giustifichino i gradi di libertà della statistica test. Infine, si commentino i risultati.
Utilizzando i grafici diagnostici, si discuta se il modello
m_linpresenta gravi violazioni delle assunzioni classiche; se si, quali sono? Si noti inoltre che la variabilebreathassume solamente valori positivi: è un problema? Se si, quali soluzioni è possibile adottare? Si discuta.Si stimi un GLM chiamato
m_gammacon variabile risposta Gamma, usando il legame canonico, in cuibreathrappresenta la variabile risposta, mentretgrpè usata come variabile esplicativa. Si riportino:- L’equazione che esprime la risposta media stimata in funzione delle variabili esplicative (equazione del modello stimato), riportando i valori della stima di massima verosimiglianza;
- Un’interpretazione dei coefficienti stimati;
- La previsione fornita dal modello
m_gammaper ciascuno dei quattro gruppiA,B,C,D. Si commentino i risultati e li si confronti con quelli ottenuti con il modellom_lin; - Il valore della statistica test di log-rapporto di verosimiglianza e il p-value associato per confrontare il modello stimato con il modello nullo. Si riportino il sistema d’ipotesi e si giustifichino i gradi di libertà della statistica test. Infine, si commentino i risultati e li si confronti con quelli ottenuti con il modello
m_lin.
Utilizzando i grafici diagnostici, si discuta se il modello
m_gammapresenta gravi violazioni delle assunzioni fatte; se si, quali?Si vuole testare se la media del gruppo
A, indicata con \mu_A, è o meno pari a 10. Utilizzando il modellom_gamma, si ottenga una statistica test opportuna e si calcoli il relativo p-value. Si commentino i risultati.Ha senso verificare se nel modello
m_gammaè presente sovradispersione? In caso affermativo, si provi a trattarla tramite una quasi-verosimiglianza e si commentino i risultati ottenuti.
Parte II: teoria ed esercizi
Problema 1
Si consideri un modello lineare \boldsymbol{Y} = \boldsymbol{X}\beta + \boldsymbol{\epsilon}. L’assunzione di linearità è quindi soddisfatta; tuttavia, si suppone che l’ipotesi di omoschedasticità degli errori non sia valida e, in particolare, si considerino i seguenti errori eteroschedastici: \text{var}(\boldsymbol{\epsilon}) = \boldsymbol{\Sigma},\quad \text{o equivalentemente che} \quad \text{var}(Y_i) = \sigma^2_i, \quad i=1,\dots,n, dove \boldsymbol{\Sigma} = \text{diag}(\sigma^2_1,\dots,\sigma_n^2) è una matrice diagonale a valori positivi.
Si mostri che lo stimatore ai minimi quadrati \hat{\beta} è ancora non distorto, mentre la varianza \text{var}(\hat{\beta}) presenta una struttura diversa rispetto a quella classica.
Problema 2
Sia Y una variabile aleatoria Gamma di parametri \alpha e \lambda, la cui funzione di densità è
p(y ; \alpha, \lambda) = \frac{\lambda^\alpha y^{\alpha-1}e^{-\lambda y}}{\Gamma(\alpha)}, \qquad y> 0, \qquad \alpha, \lambda > 0. Si mostri che questa distribuzione appartiene alla famiglia a dispersione esponenziale e si descrivano (svolgendo tutti i passaggi) le sue caratteristiche, cioè il parametro naturale, l’eventuale parametro di dispersione, le funzioni a_i(\cdot), b(\cdot), c(\cdot), la funzione media e la funzione varianza.
Problema 3
Si derivi esplicitamente il contributo di una singola osservazione alla devianza (cioè d_i) per un modello lineare generalizzato Gamma. Quindi, si scriva l’espressione della devianza D(\hat{\boldsymbol{\mu}}; \boldsymbol{y}) per un campione di dimensione n.