# Vettore delle osservazioni
<- c(2.1499496, 5.0539201, 3.1207749, 1.4512639, 3.8040806, 1.6647759) x
R per l’analisi statistica multivariata
Esame 8 Febbraio 2021
Problema 1
La funzione f(x) è definita come segue
f(x) = \frac{e^x - 1}{1 + e^x}.
Si scriva in R la funzione
f(x)
associata ad f(x).Si calcoli il valore di f(x) nel punto x = 4.
Si approssimi il valore di f(4) alla seconda cifra decimale utilizzando il comando R appropriato.
Si faccia il grafico di f(x) nell’intervallo (-2, 4).
Si calcolino i valori delle seguenti sommatorie: \sum_{k=5}^{10} \frac{e^k - 1}{1 + e^k}, \sum_{k=5}^{100} \frac{e^k - 1}{1 + e^k}.
Utilizzando la funzione
integrate
di R, si calcoli numericamente il valore dell’integrale
\int_1^4\frac{e^x - 1}{1 + e^x} \mathrm{d}x.
Problema 2
Si consideri il dataset di R Pima.te
presente nella libreria MASS
. Se ne consulti la documentazione per ulteriori informazioni.
Quante osservazioni sono contenute nel dataset
Pima.te
? Quante variabili sono presenti?Si calcoli la media aritmetica della pressione sanguigna (variabile
bp
).La variabile
bmi
rappresenta il “body mass index”. Si crei la variabilebmi_log
, contenente il logaritmo della variabilebmi
. Si ottenga un istogramma dibmi_log
, scegliendo opportunamente il numero di intervalli.Si scriva la funzione R
asym(x)
che calcola il coefficiente di asimmetria secondo Pearson, definito come \gamma = \frac{1}{\text{sqm}(x)^3} \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^3, per dei dati x_1,\dots,x_n aventi media \bar{x}. Per calcolare lo scarto quadratico medio \text{sqm(x)} si faccia uso della funzionesd
.Si calcoli il coefficiente di asimmetria secondo Pearson per le variabili
bmi
ebmi_log
. Quale delle due variabili risulta maggiormente asimmetrica?È ragionevole supporre i dati della variabile
bmi
provengano una distribuzione gaussiana? E i dati dibmi_log
? Si risponda tramite strumenti grafici.Si creino le variabili
bmi_yes
ebmi_no
, contenenti rispettivamente i valori della variabilebmi
per le donne aventi il diabete (type
=Yes
) e per le donne non aventi il diabete (type
=No
).Si confrontino le funzioni di ripartizioni empiriche delle variabili
bmi_yes
ebmi_no
. Inoltre, si calcolino media e mediana delle variabilibmi_yes
ebmi_no
.
Problema 3
Se x_1,\dots,x_n sono un campione casuale semplice (iid) con numerosità n tratto da una distribuzione \text{Ga}(\alpha,\lambda), allora la funzione di log-verosimiglianza è pari a
\ell(x;\alpha, \lambda) = \sum_{i=1}^n\log{f(x_i; \alpha, \lambda)}, \qquad f(x; \alpha, \lambda) = \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}. Se \alpha è noto, allora la stima di massima verosimiglianza per \lambda è pari a \hat{\lambda} = \frac{n \alpha}{\sum_{i=1}^n x_i}. Si supponga di aver osservato le seguenti 6 osservazioni da una distribuzione gamma di parametri \alpha = 2 e \lambda > 0. Il parametro \lambda è ignoto e siamo interessati ad una sua stima.
Si ottenga la stima di massima verosimiglianza per \lambda con i dati a disposizione e supponendo \alpha = 2.
Si scriva una funzione R
loglik(x, alpha, lambda)
che calcola la funzione di log-verosimiglianza.Si ottenga il valore della log-verosimiglianza \ell(x; 2, 1). Si verifichi che tale valore è minore di \ell(x; 2, \hat{\lambda}) e se ne spieghi il motivo.
Si “verifichi” tramite simulazione la consistenza dello stimatore di massima verosimiglianza per \lambda, quando \alpha è noto. Per fare ciò, si ottengano le stime di massima verosimiglianza di 4 campioni simulati aventi numerosità n = 100, 500, 1000, 10000, campionando da una distribuzione gamma di parametri (\alpha, \lambda) = (2, 1).