Statistica I
Esame 29 Gennaio 2024
Problema 1
I dati riguardano il peso di n = 1,095,712 bambini nati da donne non ispaniche bianche negli Stati Uniti d’America nel 2013 tra la 39esima e la 40esima settimana. La variabile misurata è il peso
del bambino alla nascita, raggruppato in classi.
I dati sono stati tratti dalla Tabella 23, a pagina 51 di questo report.
Peso (grammi) | Frequenza assoluta |
---|---|
(0, 2000] | 1491 |
(2000, 2500] | 12679 |
(2500, 3000] | 124209 |
(3000, 3500] | 442891 |
(3500, 4000] | 389275 |
(4000, 4500] | 108886 |
(4500, 5000] | 14936 |
(5000, \infty) | 1345 |
Si calcoli il valore della funzione di ripartizione empirica della variabile
peso
in 2500, ovvero un bambino di basso peso alla nascita.Si disegni l’istogramma per la variabile
peso
. Si noti che le classi non sono equispaziate.Si identifichi la classe modale per la variabile
peso
.Si ottenga, se possibile, un’approssimazione della media aritmetica per la variabile
peso
. Si ottenga inoltre un’approssimazione del primo, del secondo e del terzo quartile.Si ottenga un indice di variabilità ed un indice di asimmetria per la variabile
peso
.
Problema 2
I dati riguardano n = 2,126,791 bambini nati da donne non ispaniche bianche negli Stati Uniti d’America nel 2013. Le variabili misurate sono l’età
della madre (h = 6 classi d’età) e la modalità del parto
(k = 2, ovvero naturale o cesareo). I dati sono riportati nella seguente tabella.
I dati sono stati tratti dalla Tabella 22, a pagina 50 di questo report.
Età | Parto naturale | Parto cesareo |
---|---|---|
(12, 19] | 84615 | 23878 |
(19, 24] | 315541 | 115506 |
(24, 29] | 445748 | 191312 |
(29, 34] | 407945 | 212155 |
(34, 39] | 160820 | 108038 |
(39, 54] | 31601 | 29632 |
Si ottengano le distribuzioni marginali di
età
eparto
.Si ottengano le distribuzioni condizionate (relative) della variabile
parto
condizionatamente adetà
. Si commentino i risultati nel contesto del problema.Si consideri la variabile
età
condizionatamente a ciascun valore della variabileparto
. Quale delle due variabili condizionate risulta maggiormente eterogenea?L’indice di connessione di Mortara C è definito come segue C = \frac{1}{2(1 - 1/\max\{h, k\})} \frac{1}{n}\sum_{i=1}^h\sum_{j=1}^k\left|n_{ij} - \hat{n}_{ij} \right|, dove n_{ij} sono le frequenze assolute mentre \hat{n}_{ij} sono le frequenze attese. Si può dimostrare che 0 \le C \le 1. Che cosa misura l’indice di Mortara? In quale contesto risulta C = 0?
Si calcoli l’indice di Mortara utilizzando i dati a disposizione. Si commentino i risultati nel contesto del problema, tenendo presente anche di quanto ottenuto nei punti precedenti.
Problema 3
Si rispondano a tutti i seguenti quesiti di carattere teorico.
Siano x_1,\dots,x_n ed y_1,\dots,y_n due insiemi di dati e siano w_1,\dots,w_n dei dati trasformati tali che w_i = x_i + y_i, per i=1,\dots,n.
In quali circostanze la relazione \text{var}(w) = \text{var}(x) + \text{var}(y), risulta verificata?
Si dimostri la seguente disuguaglianza: |\text{cov}(x, y)| \le \text{sqm}(x)\text{sqm}(y).