Statistica I
Esame 29 Gennaio 2024
Problema 1
I dati riguardano il peso di n = 1,095,712 bambini nati da donne non ispaniche bianche negli Stati Uniti d’America nel 2013 tra la 39esima e la 40esima settimana. La variabile misurata è il peso del bambino alla nascita, raggruppato in classi.
I dati sono stati tratti dalla Tabella 23, a pagina 51 di questo report.
| Peso (grammi) | Frequenza assoluta |
|---|---|
| (0, 2000] | 1491 |
| (2000, 2500] | 12679 |
| (2500, 3000] | 124209 |
| (3000, 3500] | 442891 |
| (3500, 4000] | 389275 |
| (4000, 4500] | 108886 |
| (4500, 5000] | 14936 |
| (5000, \infty) | 1345 |
Si calcoli il valore della funzione di ripartizione empirica della variabile
pesoin 2500, ovvero un bambino di basso peso alla nascita.Si disegni l’istogramma per la variabile
peso. Si noti che le classi non sono equispaziate.Si identifichi la classe modale per la variabile
peso.Si ottenga, se possibile, un’approssimazione della media aritmetica per la variabile
peso. Si ottenga inoltre un’approssimazione del primo, del secondo e del terzo quartile.Si ottenga un indice di variabilità ed un indice di asimmetria per la variabile
peso.
Problema 2
I dati riguardano n = 2,126,791 bambini nati da donne non ispaniche bianche negli Stati Uniti d’America nel 2013. Le variabili misurate sono l’età della madre (h = 6 classi d’età) e la modalità del parto (k = 2, ovvero naturale o cesareo). I dati sono riportati nella seguente tabella.
I dati sono stati tratti dalla Tabella 22, a pagina 50 di questo report.
| Età | Parto naturale | Parto cesareo |
|---|---|---|
| (12, 19] | 84615 | 23878 |
| (19, 24] | 315541 | 115506 |
| (24, 29] | 445748 | 191312 |
| (29, 34] | 407945 | 212155 |
| (34, 39] | 160820 | 108038 |
| (39, 54] | 31601 | 29632 |
Si ottengano le distribuzioni marginali di
etàeparto.Si ottengano le distribuzioni condizionate (relative) della variabile
partocondizionatamente adetà. Si commentino i risultati nel contesto del problema.Si consideri la variabile
etàcondizionatamente a ciascun valore della variabileparto. Quale delle due variabili condizionate risulta maggiormente eterogenea?L’indice di connessione di Mortara C è definito come segue C = \frac{1}{2(1 - 1/\max\{h, k\})} \frac{1}{n}\sum_{i=1}^h\sum_{j=1}^k\left|n_{ij} - \hat{n}_{ij} \right|, dove n_{ij} sono le frequenze assolute mentre \hat{n}_{ij} sono le frequenze attese. Si può dimostrare che 0 \le C \le 1. Che cosa misura l’indice di Mortara? In quale contesto risulta C = 0?
Si calcoli l’indice di Mortara utilizzando i dati a disposizione. Si commentino i risultati nel contesto del problema, tenendo presente anche di quanto ottenuto nei punti precedenti.
Problema 3
Si rispondano a tutti i seguenti quesiti di carattere teorico.
Siano x_1,\dots,x_n ed y_1,\dots,y_n due insiemi di dati e siano w_1,\dots,w_n dei dati trasformati tali che w_i = x_i + y_i, per i=1,\dots,n.
In quali circostanze la relazione \text{var}(w) = \text{var}(x) + \text{var}(y), risulta verificata?
Si dimostri la seguente disuguaglianza: |\text{cov}(x, y)| \le \text{sqm}(x)\text{sqm}(y).