R per l’analisi statistica multivariata

Esame 8 Febbraio 2021

Autore/Autrice

Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Problema 1

La funzione f(x) è definita come segue

f(x) = \frac{e^x - 1}{1 + e^x}.

Si scriva in R la funzione f(x) associata ad f(x).
Si calcoli il valore di f(x) nel punto x = 4.
Si approssimi il valore di f(4) alla seconda cifra decimale utilizzando il comando R appropriato.
Si faccia il grafico di f(x) nell’intervallo (-2, 4).
Si calcolino i valori delle seguenti sommatorie: \sum_{k=5}^{10} \frac{e^k - 1}{1 + e^k}, \sum_{k=5}^{100} \frac{e^k - 1}{1 + e^k}.
Utilizzando la funzione integrate di R, si calcoli numericamente il valore dell’integrale

\int_1^4\frac{e^x - 1}{1 + e^x} \mathrm{d}x.

Problema 2

Si consideri il dataset di R Pima.te presente nella libreria MASS. Se ne consulti la documentazione per ulteriori informazioni.

Quante osservazioni sono contenute nel dataset Pima.te? Quante variabili sono presenti?
Si calcoli la media aritmetica della pressione sanguigna (variabile bp).
La variabile bmi rappresenta il “body mass index”. Si crei la variabile bmi_log, contenente il logaritmo della variabile bmi. Si ottenga un istogramma di bmi_log, scegliendo opportunamente il numero di intervalli.
Si scriva la funzione R asym(x) che calcola il coefficiente di asimmetria secondo Pearson, definito come \gamma = \frac{1}{\text{sqm}(x)^3} \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^3, per dei dati x_1,\dots,x_n aventi media \bar{x}. Per calcolare lo scarto quadratico medio \text{sqm(x)} si faccia uso della funzione sd.
Si calcoli il coefficiente di asimmetria secondo Pearson per le variabili bmi e bmi_log. Quale delle due variabili risulta maggiormente asimmetrica?
È ragionevole supporre i dati della variabile bmi provengano una distribuzione gaussiana? E i dati di bmi_log? Si risponda tramite strumenti grafici.
Si creino le variabili bmi_yes e bmi_no, contenenti rispettivamente i valori della variabile bmi per le donne aventi il diabete (type = Yes) e per le donne non aventi il diabete (type = No).
Si confrontino le funzioni di ripartizioni empiriche delle variabili bmi_yes e bmi_no. Inoltre, si calcolino media e mediana delle variabili bmi_yes e bmi_no.

Problema 3

Se x_1,\dots,x_n sono un campione casuale semplice (iid) con numerosità n tratto da una distribuzione \text{Ga}(\alpha,\lambda), allora la funzione di log-verosimiglianza è pari a

\ell(x;\alpha, \lambda) = \sum_{i=1}^n\log{f(x_i; \alpha, \lambda)}, \qquad f(x; \alpha, \lambda) = \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}. Se \alpha è noto, allora la stima di massima verosimiglianza per \lambda è pari a \hat{\lambda} = \frac{n \alpha}{\sum_{i=1}^n x_i}. Si supponga di aver osservato le seguenti 6 osservazioni da una distribuzione gamma di parametri \alpha = 2 e \lambda > 0. Il parametro \lambda è ignoto e siamo interessati ad una sua stima.

# Vettore delle osservazioni
x <- c(2.1499496, 5.0539201, 3.1207749, 1.4512639, 3.8040806, 1.6647759)

Si ottenga la stima di massima verosimiglianza per \lambda con i dati a disposizione e supponendo \alpha = 2.
Si scriva una funzione R loglik(x, alpha, lambda) che calcola la funzione di log-verosimiglianza.
Si ottenga il valore della log-verosimiglianza \ell(x; 2, 1). Si verifichi che tale valore è minore di \ell(x; 2, \hat{\lambda}) e se ne spieghi il motivo.
Si “verifichi” tramite simulazione la consistenza dello stimatore di massima verosimiglianza per \lambda, quando \alpha è noto. Per fare ciò, si ottengano le stime di massima verosimiglianza di 4 campioni simulati aventi numerosità n = 100, 500, 1000, 10000, campionando da una distribuzione gamma di parametri (\alpha, \lambda) = (2, 1).