R per l’analisi statistica multivariata

Esame 22 Luglio 2021

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Problema 1

Si supponga che X sia una variabile casuale che si distribuisce come un’esponenziale di media 1/2. Inoltre, sia Y una variabile casuale tale che Y condizionata a X = x si distribuisce come una Poisson di media \exp(x / 4).

  1. (5pt) Calcolare via simulazione il valore atteso E(Y^2).

Grazie alle proprietà della distribuzione di Poisson, si ottiene che

E(Y^2 \mid X = x) = e^{x/4} + e^{x / 2}.

  1. (5pt) Si sfrutti questo risultato per ottenere una stima alternativa (ma equivalente) del valore atteso E(Y^2).

Problema 2

Sia X una variabile casuale distribuita in modo uniforme nell’intervallo (\theta / 2, \theta), con \theta > 0. Sia X_1,\dots,X_n un campione casuale da X e siano dati i due stimatori

T_1 = \frac{4}{3}\bar{X}, \qquad T_2 = \frac{2}{3}(X_{(1)} + X_{(n)}), dove X_{(1)} e X_{(n)} rappresentano il minimo ed il massimo di X_1,\dots,X_n, rispettivamente. Supponendo \theta = 1 e n = 20, si ottenga una stima Montecarlo delle seguenti quantità:

  1. (2pt) La distorsione degli stimatori T_1 e T_2, ovvero E(T_1 - \theta) e E(T_2 - \theta).

  2. (2pt) L’errore quadratico medio di T_1 e T_2, ovvero E\{(T_1 - \theta)^2\} e E\{(T_2 - \theta)^2\}. Quale dei due stimatori risulta più efficiente?

Inoltre, supponendo \theta = 1

  1. (6pt) Si conduca uno studio di simulazione e si verifichi empiricamente che lo stimatore T_1 è consistente al crescere di n.

Problema 3

Si considerino i dati sono disponibili al link https://tommasorigon.github.io/introR/data/province.csv

  1. (1pt) Si carichino i dati in memoria. Quante osservazioni sono presenti? Quante variabili?

  2. (1pt) Si ottenga la matrice di correlazione.

  3. (8pt) Si calcoli la correlazione parziale tra le variabili agricoltura e feritilità al netto della variabile istruzione, che si ottiene come segue. Si costruisca un modello di regressione lineare usando “agricoltura” come variabile risposta (y) e “istruzione” (x) come variabile esplicativa. Analogamente, si costruisca un modello di regressione usando “fertilità” come variabile risposta e “istruzione” come variabile esplicativa. Si ricordi che le stime ai minimi quadrati sono pari a \hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}, \qquad \hat{\beta} = \frac{\text{cov}(x,y)}{\text{var}(x)}. Il coefficiente di correlazione parziale si ottiene quindi calcolando coefficiente di correlazione tra i residui di entrambi i modelli