R per l’analisi statistica multivariata
Esame 22 Luglio 2021
Problema 1
Si supponga che X sia una variabile casuale che si distribuisce come un’esponenziale di media 1/2. Inoltre, sia Y una variabile casuale tale che Y condizionata a X = x si distribuisce come una Poisson di media \exp(x / 4).
- (5pt) Calcolare via simulazione il valore atteso E(Y^2).
Grazie alle proprietà della distribuzione di Poisson, si ottiene che
E(Y^2 \mid X = x) = e^{x/4} + e^{x / 2}.
- (5pt) Si sfrutti questo risultato per ottenere una stima alternativa (ma equivalente) del valore atteso E(Y^2).
Problema 2
Sia X una variabile casuale distribuita in modo uniforme nell’intervallo (\theta / 2, \theta), con \theta > 0. Sia X_1,\dots,X_n un campione casuale da X e siano dati i due stimatori
T_1 = \frac{4}{3}\bar{X}, \qquad T_2 = \frac{2}{3}(X_{(1)} + X_{(n)}), dove X_{(1)} e X_{(n)} rappresentano il minimo ed il massimo di X_1,\dots,X_n, rispettivamente. Supponendo \theta = 1 e n = 20, si ottenga una stima Montecarlo delle seguenti quantità:
(2pt) La distorsione degli stimatori T_1 e T_2, ovvero E(T_1 - \theta) e E(T_2 - \theta).
(2pt) L’errore quadratico medio di T_1 e T_2, ovvero E\{(T_1 - \theta)^2\} e E\{(T_2 - \theta)^2\}. Quale dei due stimatori risulta più efficiente?
Inoltre, supponendo \theta = 1
- (6pt) Si conduca uno studio di simulazione e si verifichi empiricamente che lo stimatore T_1 è consistente al crescere di n.
Problema 3
Si considerino i dati sono disponibili al link https://tommasorigon.github.io/introR/data/province.csv
(1pt) Si carichino i dati in memoria. Quante osservazioni sono presenti? Quante variabili?
(1pt) Si ottenga la matrice di correlazione.
(8pt) Si calcoli la correlazione parziale tra le variabili agricoltura e feritilità al netto della variabile istruzione, che si ottiene come segue. Si costruisca un modello di regressione lineare usando “agricoltura” come variabile risposta (y) e “istruzione” (x) come variabile esplicativa. Analogamente, si costruisca un modello di regressione usando “fertilità” come variabile risposta e “istruzione” come variabile esplicativa. Si ricordi che le stime ai minimi quadrati sono pari a \hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}, \qquad \hat{\beta} = \frac{\text{cov}(x,y)}{\text{var}(x)}. Il coefficiente di correlazione parziale si ottiene quindi calcolando coefficiente di correlazione tra i residui di entrambi i modelli