R per l’analisi statistica multivariata
Esame 20 Febbraio 2023
Problema 1
Si consideri il dataset di R che si ottiene tramite il comando data(trees). Se ne consulti la documentazione per ulteriori informazioni.
(1pt) Si ottenga il grafico della funzione di ripartizione empirica F(x) della variabile
Girth. Si calcoli inoltre il valore di F(15).(2pt) Si identifichi il primo ed il terzo quartile della variabile
Volume. Si faccia quindi l’istogramma della variabileVolume.(2pt) Si divida la variabile
Volumein tre classi, utilizzando i seguenti intervalli: (10, 21], (21, 37], (37, 80]. Si aggiunga la variabile ottenuta nel datasettrees, chiamandolavolume_class.(2pt) Si rinominino le modalità della variabile
volume_class, chiamandolelow,mediumehigh.(2pt) Si ottengano i 3 boxplot relativi alla variabile
Girthper ciascuna modalità della variabilevolume_class.(2pt) Si produca un dataset chiamato
trees2che contiene esclusivamente le variabiliGirtheVolume. Si rinominino le colonne di questo nuovo dataset, chiamandoleDiametereVolume.
Problema 2
Uno studente del corso di laurea SSE dell’Università Milano-Bicocca sostiene di aver inventato una nuova variabile aleatoria. Pur non conoscendone la densità, definisce la variabile aleatoria X come segue:
X = \frac{Y_1}{Y_1 + Y_2}, dove Y_1 ed Y_2 sono due variabile aleatorie esponenziali indipendenti ed identicamente distribuite di media 1.
(2pt) Si scriva in R la funzione
rprop(R)che simulaRvalori pseudo-casuali distribuiti come la variable X.(2pt) Si fornisca un’approssimazione della media e della varianza di X.
(2pt) Si quantifichi l’errore commesso al punto precedente.
(2pt) Si approssimi la probabilità P(X \le x), per x = 0.1, 0.5, 0.9.
(2pt) Si ottenga e si faccia il grafico di una stima della densità di X. A cosa “assomiglia” la distribuzione di X?
Problema 3
Si consideri il dataset di R che si ottiene tramite il comando data(stackloss), contenuto all’interno della libreria MASS. Se ne consulti la documentazione per ulteriori informazioni.
(2pt) Cosa significa la frase: “l’algoritmo di ottimizzazione è arrivato a convergenza?”
(2pt) Si ottengano le stime a minimi quadrati per un modello di regressione lineare y_i = \alpha + \beta x_i + \epsilon_i, dove
Water.Temprappresenta la variabile esplicativa (x) mentrestack.lossrappresenta la variabile risposta (y).(1pt) Si disegni un diagramma a dispersione relativo alle variabili
Water.Tempestack.loss. Si disegni inoltre la retta di regressione ottenuta.(5pt) Per ridurre l’influenza di eventuali valori anomali, è possibile considerare una stima alternativa per \alpha e \beta, che si ottiene come soluzione del seguente problema di minimizzazione: (\hat{\alpha},\hat{\beta}) = \arg \min_{\alpha,\beta} \sum_{i=1}^n |y_i - \alpha - \beta x_i|.