R per l’analisi statistica multivariata
Esame 22 Febbraio 2022
Problema 1
Si carichi in memoria il dataset swiss
presente in R. Il dataset si riferisce a n = 47 province della svizzera Francese.
(1pt) Si aggiunga al dataset una nuova variabile, chiamata
logEducation
, la quale contiene il logaritmo della variabileEducation
.(1pt) Si produca un grafico opportuno che metta in relazione la variabile
logEducation
eAgriculture
.(2pt) Si ottengano le matrici di covarianza e di correlazione relative alle variabili
Fertility
,Agriculture
elogEducation
.(2pt) Si calcolino degli opportuni indici di posizione e variabilità per la variabile
Agriculture
.(6pt) Si calcoli la correlazione parziale tra le variabili
Agriculture
eFertility
al netto della variabilelogEducation
, che si ottiene come segue. Si costruisca un modello di regressione lineare usandoAgriculture
come variabile risposta (y) elogEducation
(x) come variabile esplicativa. Analogamente, si costruisca un modello di regressione usandoFertility
come variabile risposta elogEducation
come variabile esplicativa. Si ricordi che le stime ai minimi quadrati sono pari a \hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}, \qquad \hat{\beta} = \frac{\text{cov}(x,y)}{\text{var}(x)}. Il coefficiente di correlazione parziale si ottiene quindi calcolando il coefficiente di correlazione tra i residui di entrambi i modelli.
Problema 2
Una variabile aleatoria continua X segue una distribuzione di Kumaraswamy di parametri \alpha, \beta se la sua densità è pari a:
f(x) = \alpha \beta x^{\alpha - 1}(1 - x^\alpha)^{\beta - 1}, \qquad 0 < x < 1.
È inoltre possibile dimostrare che la funzione di ripartizione è pari a
F(x) = 1 - (1 - x^\alpha)^\beta, \qquad 0 < x < 1. Infine, la funzione quantile è pari a
\mathcal{Q}(p) = (1 - (1 - p)^{1/\beta})^{1/ \alpha}, \qquad 0 < p < 1.
(4pt) Si implementino le funzioni
dkum(x, alpha, beta)
,pkum(x, alpha, beta)
eqkum(x, alpha, beta)
le quali fanno riferimento rispettivamente alla densità, alla funzione di ripartizione e alla funzione quantile.(2pt). Si faccia un grafico nell’intervallo (0, 1) di tutte e tre le funzioni precedenti, per \alpha = \beta = 2.
(2pt) Si costruisca una funzione
rkum(R, alpha, beta)
che campionaR
valori pseudo-casuali dalla variabile aleatoria di Kumaraswamy.(2pt) Si ottenga una stima Monte Carlo della densità di X, quando \alpha = \beta = 2 e la si confronti con la funzione di densità
dkum
ottenuta in precedenza.(2pt) Si ottenga un’approssimazione Monte Carlo della media E(X), quando \alpha = \beta = 2. Si quantifichi opportunamente l’errore commesso.
Problema 3
Siano y = (y_1,\dots,y_n) delle realizzazioni iid di una variabile aleatoria discreta con legge Poisson di parametro \lambda. Si considerino i seguenti stimatori per la probabilità \psi = P(Y = 0), dove Y \sim \text{Pois}(\lambda)
T_1 = e^{-\bar{y}}, \qquad T_2 = \frac{1}{n}\sum_{i=1}^n I(y_i = 0), in cui \bar{y} e I(\cdot) rappresentano la media aritmetica e la funzione indicatrice.
(4pt) Supponendo \lambda = 2, si verifichi empiricamente se i due stimatori sono consistenti.
(2pt) Supponendo \lambda = 2 e per n = 20, si effettui uno studio di simulazione e si calcoli la distorsione degli stimatori T_1 and T_2.
(2pt) Supponendo \lambda = 2 e per n = 20, si stabilisca quale dei due stimatori è preferibile in termini di errore quadratico medio.