Statistica I

Esame 29 Gennaio 2024

Autore/Autrice

Affiliazione

Tommaso Rigon

DEMS

Problema 1

I dati riguardano il peso di n = 1,095,712 bambini nati da donne non ispaniche bianche negli Stati Uniti d’America nel 2013 tra la 39esima e la 40esima settimana. La variabile misurata è il peso del bambino alla nascita, raggruppato in classi.

I dati sono stati tratti dalla Tabella 23, a pagina 51 di questo report.

Peso (grammi)	Frequenza assoluta
(0, 2000]	1491
(2000, 2500]	12679
(2500, 3000]	124209
(3000, 3500]	442891
(3500, 4000]	389275
(4000, 4500]	108886
(4500, 5000]	14936
(5000, \infty)	1345

Si calcoli il valore della funzione di ripartizione empirica della variabile peso in 2500, ovvero un bambino di basso peso alla nascita.
Si disegni l’istogramma per la variabile peso. Si noti che le classi non sono equispaziate.
Si identifichi la classe modale per la variabile peso.
Si ottenga, se possibile, un’approssimazione della media aritmetica per la variabile peso. Si ottenga inoltre un’approssimazione del primo, del secondo e del terzo quartile.
Si ottenga un indice di variabilità ed un indice di asimmetria per la variabile peso.

Problema 2

I dati riguardano n = 2,126,791 bambini nati da donne non ispaniche bianche negli Stati Uniti d’America nel 2013. Le variabili misurate sono l’età della madre (h = 6 classi d’età) e la modalità del parto (k = 2, ovvero naturale o cesareo). I dati sono riportati nella seguente tabella.

I dati sono stati tratti dalla Tabella 22, a pagina 50 di questo report.

Età	Parto naturale	Parto cesareo
(12, 19]	84615	23878
(19, 24]	315541	115506
(24, 29]	445748	191312
(29, 34]	407945	212155
(34, 39]	160820	108038
(39, 54]	31601	29632

Si ottengano le distribuzioni marginali di età e parto.
Si ottengano le distribuzioni condizionate (relative) della variabile parto condizionatamente ad età. Si commentino i risultati nel contesto del problema.
Si consideri la variabile età condizionatamente a ciascun valore della variabile parto. Quale delle due variabili condizionate risulta maggiormente eterogenea?
L’indice di connessione di Mortara C è definito come segue C = \frac{1}{2(1 - 1/\max\{h, k\})} \frac{1}{n}\sum_{i=1}^h\sum_{j=1}^k\left|n_{ij} - \hat{n}_{ij} \right|, dove n_{ij} sono le frequenze assolute mentre \hat{n}_{ij} sono le frequenze attese. Si può dimostrare che 0 \le C \le 1. Che cosa misura l’indice di Mortara? In quale contesto risulta C = 0?
Si calcoli l’indice di Mortara utilizzando i dati a disposizione. Si commentino i risultati nel contesto del problema, tenendo presente anche di quanto ottenuto nei punti precedenti.

Problema 3

Si rispondano a tutti i seguenti quesiti di carattere teorico.

Siano x_1,\dots,x_n ed y_1,\dots,y_n due insiemi di dati e siano w_1,\dots,w_n dei dati trasformati tali che w_i = x_i + y_i, per i=1,\dots,n.

In quali circostanze la relazione \text{var}(w) = \text{var}(x) + \text{var}(y), risulta verificata?
Si dimostri la seguente disuguaglianza: |\text{cov}(x, y)| \le \text{sqm}(x)\text{sqm}(y).