R per l’analisi statistica multivariata
Esame 22 Febbraio 2022
Problema 1
Si carichi in memoria il dataset swiss presente in R. Il dataset si riferisce a n = 47 province della svizzera Francese.
(1pt) Si aggiunga al dataset una nuova variabile, chiamata
logEducation, la quale contiene il logaritmo della variabileEducation.(1pt) Si produca un grafico opportuno che metta in relazione la variabile
logEducationeAgriculture.(2pt) Si ottengano le matrici di covarianza e di correlazione relative alle variabili
Fertility,AgricultureelogEducation.(2pt) Si calcolino degli opportuni indici di posizione e variabilità per la variabile
Agriculture.(6pt) Si calcoli la correlazione parziale tra le variabili
AgricultureeFertilityal netto della variabilelogEducation, che si ottiene come segue. Si costruisca un modello di regressione lineare usandoAgriculturecome variabile risposta (y) elogEducation(x) come variabile esplicativa. Analogamente, si costruisca un modello di regressione usandoFertilitycome variabile risposta elogEducationcome variabile esplicativa. Si ricordi che le stime ai minimi quadrati sono pari a \hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}, \qquad \hat{\beta} = \frac{\text{cov}(x,y)}{\text{var}(x)}. Il coefficiente di correlazione parziale si ottiene quindi calcolando il coefficiente di correlazione tra i residui di entrambi i modelli.
Problema 2
Una variabile aleatoria continua X segue una distribuzione di Kumaraswamy di parametri \alpha, \beta se la sua densità è pari a:
f(x) = \alpha \beta x^{\alpha - 1}(1 - x^\alpha)^{\beta - 1}, \qquad 0 < x < 1.
È inoltre possibile dimostrare che la funzione di ripartizione è pari a
F(x) = 1 - (1 - x^\alpha)^\beta, \qquad 0 < x < 1. Infine, la funzione quantile è pari a
\mathcal{Q}(p) = (1 - (1 - p)^{1/\beta})^{1/ \alpha}, \qquad 0 < p < 1.
(4pt) Si implementino le funzioni
dkum(x, alpha, beta),pkum(x, alpha, beta)eqkum(x, alpha, beta)le quali fanno riferimento rispettivamente alla densità, alla funzione di ripartizione e alla funzione quantile.(2pt). Si faccia un grafico nell’intervallo (0, 1) di tutte e tre le funzioni precedenti, per \alpha = \beta = 2.
(2pt) Si costruisca una funzione
rkum(R, alpha, beta)che campionaRvalori pseudo-casuali dalla variabile aleatoria di Kumaraswamy.(2pt) Si ottenga una stima Monte Carlo della densità di X, quando \alpha = \beta = 2 e la si confronti con la funzione di densità
dkumottenuta in precedenza.(2pt) Si ottenga un’approssimazione Monte Carlo della media E(X), quando \alpha = \beta = 2. Si quantifichi opportunamente l’errore commesso.
Problema 3
Siano y = (y_1,\dots,y_n) delle realizzazioni iid di una variabile aleatoria discreta con legge Poisson di parametro \lambda. Si considerino i seguenti stimatori per la probabilità \psi = P(Y = 0), dove Y \sim \text{Pois}(\lambda)
T_1 = e^{-\bar{y}}, \qquad T_2 = \frac{1}{n}\sum_{i=1}^n I(y_i = 0), in cui \bar{y} e I(\cdot) rappresentano la media aritmetica e la funzione indicatrice.
(4pt) Supponendo \lambda = 2, si verifichi empiricamente se i due stimatori sono consistenti.
(2pt) Supponendo \lambda = 2 e per n = 20, si effettui uno studio di simulazione e si calcoli la distorsione degli stimatori T_1 and T_2.
(2pt) Supponendo \lambda = 2 e per n = 20, si stabilisca quale dei due stimatori è preferibile in termini di errore quadratico medio.