Statistica I

Esame 19 Novembre 2024

Autore/Autrice
Affiliazione

Tommaso Rigon

DEMS

Problema 1

Nell’A.A. 2024/25, durante il corso Statistica I, è stato condotto un esperimento. Agli studenti presenti è stato chiesto per due volte di indovinare il numero di biglie presenti in una bottiglia, la quale conteneva 282 biglie. Al primo tentativo (x) non è stata fornita alcuna informazione di supporto, mentre al secondo tentativo (y) sono state fornite delle informazioni aggiuntive, come la dimensione delle biglie e la capacità della bottiglia.

Dopo alcune analisi preliminari, sono state ritenute valide un totale di n = 79 risposte. Tali risposte sono state rappresentate nel seguente diagramma a dispersione.

Vengono inoltre riportate nel seguito alcune quantità di potenziale interesse:

\sum_{i=1}^{79} x_i = 19451, \quad \sum_{i=1}^{79} x_i^2 = 5255977, \quad \sum_{i=1}^{79} y_i = 21256, \quad \sum_{i=1}^{79} y_i^2 = 6054602, \sum_{i=1}^{79} x_i y_i = 5293892, \quad \frac{1}{79}\sum_{i=1}^{79} y_i^3 = 23072804.33, \quad \frac{1}{79}\sum_{i=1}^{79} y_i^4 = 7360399442.

  1. Si calcolino le varianze delle variabili primo tentativo e secondo tentativo e la loro correlazione.

  2. Si consideri il seguente modello di regressione lineare: y_i = \alpha + \beta x_i + \epsilon_i, \qquad i=1,\dots,79. Si ottengano delle stime per \alpha e \beta nel modo che si ritiene più opportuno.

  3. Si fornisca quindi un’interpretazione per i coefficienti stimati al punto precedente. In che modo gli studenti hanno cambiato la loro opinione, se lo hanno fatto?

  4. Si calcoli la varianza residuale del modello stimato. Inoltre, sapendo che x_9 = 187 e y_9 = 466, a quanto ammonta il residuo corrispondente r_9?

  5. Si ottenga l’indice di bontà di adattamento R^2 e lo si interpreti nel contesto del problema.

  6. Si calcoli l’indice di curtosi di Pearson \kappa per la variabile secondo tentativo e se ne dia un’interpretazione. Suggerimento: si ricordi che (a - b)^4 = a^4 - 4a^3b + 6 a^2 b^2 - 4 a b^3 + b^4.

Problema 2

Durante l’A.A. 2024/25 agli studenti del corso di Statistica I è stato chiesto di identificare la tipologia di 5 diversi indici. I risultati di questo esperimento didattico sono riportati nella tabella seguente, che mostra le frequenze congiunte delle variabili domanda e risposta (variabile binaria: 0 risposta errata, 1 risposta corretta). La numerosità campionaria n = 310 rappresenta il numero complessivo di risposte fornite.

Domanda Risposta errata (0) Risposta corretta (1)
a. (indice pari a 0) 48 12
b. (varianza) 21 42
c. (differenza semplice media) 43 17
d. (media geometrica) 16 45
e. (scarto interquartile) 61 5
  1. Si ottengano le frequenze relative della variabile risposta condizionatamente a ciascun valore della variabile domanda.

  2. Si stabilisca quale tra le distribuzioni della variabile risposta, condizionatamente a ciascun valore della variabile domanda, risulta maggiormente eterogenea.

  3. (Teoria) Sia y una variabile binaria, ovvero i cui valori y_1,\dots,y_n sono pari 0 oppure a 1. Il valore 0 ha frequenze relativa pari f_0 mentre il valore 1 ha frequenze relativa f_1. Si mostri che in tal caso l’indice di eterogeneità Gini è pari a 2 volte la varianza, ovvero: G = 2\: \text{var}(y).

  4. Si stabilisca, tramite opportuni indici, se la variabile risposta è dipendente in distribuzione dalla variabile domanda. Si fornisca un’interpretazione di questi risultati.

  5. Si stabilisca, tramite opportuni indici, se la variabile risposta è dipendente in media dalla variabile domanda. Si fornisca un’interpretazione di questi risultati.

Problema 3

Siano x_1,\dots,x_n ed y_1,\dots,y_n due insiemi di dati e siano w_1,\dots,w_n dei dati trasformati tali che w_i = x_i + y_i, per i=1,\dots,n.

  1. In quali circostanze la relazione \text{var}(w) = \text{var}(x) + \text{var}(y) risulta verificata?

  2. Si dimostri la seguente disuguaglianza: |\text{cov}(x, y)| \le \text{sqm}(x)\text{sqm}(y).