Esame del 27 Gennaio 2026

Statistics III - CdL SSE

Autore/Autrice

Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Homepage

Il tempo a disposizione per lo svolgimento della prova è di 2 ore e 30 minuti. Si ricorda di firmare tutti i documenti che si intendono consegnare, indicando nome e numero di matricola.

Il voto finale corrisponde alla media delle due parti, ciascuna valutata su 30 punti. La prova si considera superata solo se si raggiunge la sufficienza (18/30) in entrambe le parti.

Parte I: analisi dei dati

Si considerino i dati anaesthetic della libreria faraway, relativi a uno studio condotto da un medico di un ospedale di Londra, che ha confrontato gli effetti di quattro anestetici utilizzati in interventi chirurgici maggiori su un totale di ottanta pazienti, suddivisi in quattro gruppi da 20. Le variabili presenti sono:

breath: tempo (in minuti) necessario per iniziare a respirare autonomamente, arrotondato al minuto più vicino;
trgp: quattro gruppi di trattamento: A, B, C e D.

Facendo uso del software R, si risponda alle seguenti domande:

Alcuni valori di breath sono esattamente pari a 0 minuti, che è un errore di arrotondamento. Si sostituisca a tali valori il numero 0.25.
Si ottengano dei boxplot per la variabile breath per ciascuno dei quattro gruppi di pazienti (senza riportarli); si commentino i risultati. Si riportino inoltre le medie e le deviazioni standard di ciascun gruppo.
Si stimi un modello lineare chiamato m_lin in cui breath rappresenta la variabile risposta, mentre tgrp è usata come variabile esplicativa. Si riporti:
1. L’equazione che esprime la risposta media stimata in funzione delle variabili esplicative (equazione del modello stimato), riportando i valori della stima di massima verosimiglianza;
2. Un’interpretazione dei coefficienti stimati;
3. La previsione fornita dal modello m_lin per ciascuno dei quattro gruppi A, B, C, D. Si commentino i risultati;
4. Il valore della statistica test e il p-value associato per confrontare il modello stimato con il modello nullo. Si riportino il sistema d’ipotesi e si giustifichino i gradi di libertà della statistica test. Infine, si commentino i risultati.
Utilizzando i grafici diagnostici, si discuta se il modello m_lin presenta gravi violazioni delle assunzioni classiche; se si, quali sono? Si noti inoltre che la variabile breath assume solamente valori positivi: è un problema? Se si, quali soluzioni è possibile adottare? Si discuta.
Si stimi un GLM chiamato m_gamma con variabile risposta Gamma, usando il legame canonico, in cui breath rappresenta la variabile risposta, mentre tgrp è usata come variabile esplicativa. Si riportino:
1. L’equazione che esprime la risposta media stimata in funzione delle variabili esplicative (equazione del modello stimato), riportando i valori della stima di massima verosimiglianza;
2. Un’interpretazione dei coefficienti stimati;
3. La previsione fornita dal modello m_gamma per ciascuno dei quattro gruppi A, B, C, D. Si commentino i risultati e li si confronti con quelli ottenuti con il modello m_lin;
4. Il valore della statistica test di log-rapporto di verosimiglianza e il p-value associato per confrontare il modello stimato con il modello nullo. Si riportino il sistema d’ipotesi e si giustifichino i gradi di libertà della statistica test. Infine, si commentino i risultati e li si confronti con quelli ottenuti con il modello m_lin.
Utilizzando i grafici diagnostici, si discuta se il modello m_gamma presenta gravi violazioni delle assunzioni fatte; se si, quali?
Si vuole testare se la media del gruppo A, indicata con \mu_A, è o meno pari a 10. Utilizzando il modello m_gamma, si ottenga una statistica test opportuna e si calcoli il relativo p-value. Si commentino i risultati.
Ha senso verificare se nel modello m_gamma è presente sovradispersione? In caso affermativo, si provi a trattarla tramite una quasi-verosimiglianza e si commentino i risultati ottenuti.

Parte II: teoria ed esercizi

Problema 1

Si consideri un modello lineare \boldsymbol{Y} = \boldsymbol{X}\beta + \boldsymbol{\epsilon}. L’assunzione di linearità è quindi soddisfatta; tuttavia, si suppone che l’ipotesi di omoschedasticità degli errori non sia valida e, in particolare, si considerino i seguenti errori eteroschedastici: \text{var}(\boldsymbol{\epsilon}) = \boldsymbol{\Sigma},\quad \text{o equivalentemente che} \quad \text{var}(Y_i) = \sigma^2_i, \quad i=1,\dots,n, dove \boldsymbol{\Sigma} = \text{diag}(\sigma^2_1,\dots,\sigma_n^2) è una matrice diagonale a valori positivi.

Si mostri che lo stimatore ai minimi quadrati \hat{\beta} è ancora non distorto, mentre la varianza \text{var}(\hat{\beta}) presenta una struttura diversa rispetto a quella classica.

Problema 2

Sia Y una variabile aleatoria Gamma di parametri \alpha e \lambda, la cui funzione di densità è

p(y ; \alpha, \lambda) = \frac{\lambda^\alpha y^{\alpha-1}e^{-\lambda y}}{\Gamma(\alpha)}, \qquad y> 0, \qquad \alpha, \lambda > 0. Si mostri che questa distribuzione appartiene alla famiglia a dispersione esponenziale e si descrivano (svolgendo tutti i passaggi) le sue caratteristiche, cioè il parametro naturale, l’eventuale parametro di dispersione, le funzioni a_i(\cdot), b(\cdot), c(\cdot), la funzione media e la funzione varianza.

Problema 3

Si derivi esplicitamente il contributo di una singola osservazione alla devianza (cioè d_i) per un modello lineare generalizzato Gamma. Quindi, si scriva l’espressione della devianza D(\hat{\boldsymbol{\mu}}; \boldsymbol{y}) per un campione di dimensione n.