# Vettore delle osservazioni
x <- c(2.1499496, 5.0539201, 3.1207749, 1.4512639, 3.8040806, 1.6647759)R per l’analisi statistica multivariata
Esame 8 Febbraio 2021
Problema 1
La funzione f(x) è definita come segue
f(x) = \frac{e^x - 1}{1 + e^x}.
Si scriva in R la funzione
f(x)associata ad f(x).Si calcoli il valore di f(x) nel punto x = 4.
Si approssimi il valore di f(4) alla seconda cifra decimale utilizzando il comando R appropriato.
Si faccia il grafico di f(x) nell’intervallo (-2, 4).
Si calcolino i valori delle seguenti sommatorie: \sum_{k=5}^{10} \frac{e^k - 1}{1 + e^k}, \sum_{k=5}^{100} \frac{e^k - 1}{1 + e^k}.
Utilizzando la funzione
integratedi R, si calcoli numericamente il valore dell’integrale
\int_1^4\frac{e^x - 1}{1 + e^x} \mathrm{d}x.
Problema 2
Si consideri il dataset di R Pima.te presente nella libreria MASS. Se ne consulti la documentazione per ulteriori informazioni.
Quante osservazioni sono contenute nel dataset
Pima.te? Quante variabili sono presenti?Si calcoli la media aritmetica della pressione sanguigna (variabile
bp).La variabile
bmirappresenta il “body mass index”. Si crei la variabilebmi_log, contenente il logaritmo della variabilebmi. Si ottenga un istogramma dibmi_log, scegliendo opportunamente il numero di intervalli.Si scriva la funzione R
asym(x)che calcola il coefficiente di asimmetria secondo Pearson, definito come \gamma = \frac{1}{\text{sqm}(x)^3} \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^3, per dei dati x_1,\dots,x_n aventi media \bar{x}. Per calcolare lo scarto quadratico medio \text{sqm(x)} si faccia uso della funzionesd.Si calcoli il coefficiente di asimmetria secondo Pearson per le variabili
bmiebmi_log. Quale delle due variabili risulta maggiormente asimmetrica?È ragionevole supporre i dati della variabile
bmiprovengano una distribuzione gaussiana? E i dati dibmi_log? Si risponda tramite strumenti grafici.Si creino le variabili
bmi_yesebmi_no, contenenti rispettivamente i valori della variabilebmiper le donne aventi il diabete (type=Yes) e per le donne non aventi il diabete (type=No).Si confrontino le funzioni di ripartizioni empiriche delle variabili
bmi_yesebmi_no. Inoltre, si calcolino media e mediana delle variabilibmi_yesebmi_no.
Problema 3
Se x_1,\dots,x_n sono un campione casuale semplice (iid) con numerosità n tratto da una distribuzione \text{Ga}(\alpha,\lambda), allora la funzione di log-verosimiglianza è pari a
\ell(x;\alpha, \lambda) = \sum_{i=1}^n\log{f(x_i; \alpha, \lambda)}, \qquad f(x; \alpha, \lambda) = \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}. Se \alpha è noto, allora la stima di massima verosimiglianza per \lambda è pari a \hat{\lambda} = \frac{n \alpha}{\sum_{i=1}^n x_i}. Si supponga di aver osservato le seguenti 6 osservazioni da una distribuzione gamma di parametri \alpha = 2 e \lambda > 0. Il parametro \lambda è ignoto e siamo interessati ad una sua stima.
Si ottenga la stima di massima verosimiglianza per \lambda con i dati a disposizione e supponendo \alpha = 2.
Si scriva una funzione R
loglik(x, alpha, lambda)che calcola la funzione di log-verosimiglianza.Si ottenga il valore della log-verosimiglianza \ell(x; 2, 1). Si verifichi che tale valore è minore di \ell(x; 2, \hat{\lambda}) e se ne spieghi il motivo.
Si “verifichi” tramite simulazione la consistenza dello stimatore di massima verosimiglianza per \lambda, quando \alpha è noto. Per fare ciò, si ottengano le stime di massima verosimiglianza di 4 campioni simulati aventi numerosità n = 100, 500, 1000, 10000, campionando da una distribuzione gamma di parametri (\alpha, \lambda) = (2, 1).