Statistica I

Esercizi 3: variabilità, istogrammi, boxplot, simmetria, curtosi

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Homepage

Esercizio A

Il numero di giorni di ferie richiesti per il mese di giugno 2019 in un campione di n = 16 lavoratori è rappresentato nella seguente tabella

Modalità c_j 3 7 8 11 15 17 24
Frequenze assolute n_j 2 4 5 1 2 1 1
  1. Rappresentare graficamente la funzione di ripartizione empirica.

  2. Calcolare la mediana e i quartili.

  3. Sono presenti outlier? Quindi, disegnare un boxplot.

  4. Determinare media aritmetica.

  5. Calcolare il campo di variazione, la differenza interquartile e lo scarto quadratico medio.

Esercizio B

Nel 1975 in Italia il numero di parti legittimi per età della madre al parto è stato il seguente:

Età della madre Numero nati
(9, 14] 489
(14, 20] 94921
(20, 24] 200255
(24, 29] 274779
(29, 34] 144282
(34, 44] 99238
(44, 55] 1747
  1. Si dica qual è l’unità statistica e qual è la variabile considerata.

  2. Di che tipo di variabile si tratta?

  3. Rappresentare graficamente il fenomeno. Attenzione: le classi non hanno dimensione uguale.

  4. Calcolare la percentuale dei nati per fasce d’età della madre.

Esercizio C

Per n = 56 studenti si è rilevata la variabile voto all’esame di maturità. Il voto medio rilevato è pari a 76 e la varianza pari a 25.

  1. Se si osserva un ulteriore studente che ha riportato un voto pari a 90. Qual è il nuovo voto medio?

  2. Nella stessa ipotesi, come cambia la varianza?

  3. Se lo studente che si aggiunge ha riportato un voto pari a 76 come cambiano le risposte ai quesiti precedenti?

Esercizio D

Si considerino i seguenti tre insiemi di n = 10 dati raccolti sulla medesima variabile in tre situazioni diverse: x = (−1.65, −5.74, −0.84, −4.50, 12.90, 0.84, −4.73, 7.89, 10.72, 4.40), y = (−5.34,−6.26,3.80,−2.15,−1.72,−7.35,6.84,5.92,1.72,7.76), z = (7.05, −0.43, −10.21, −5.44, −6.75, −12.33, 13.76, 21.51, 0.43, 6.14).

  1. Si confrontino le variabilità, la simmetria e la curtosi di questi insiemi dapprima con uno strumento grafico e, successivamente, con appositi indici.

  2. Sono presenti outlier nei precedenti insiemi?

La tabella seguente costituisce solamente uno schema della soluzione, non la soluzione stessa.

Media \mathcal{Q}_{0.25} \mathcal{Q}_{0.75} \sigma^2 \gamma \kappa
x 1.929 -4.50 7.89 40.54343 0.4440664 1.771384
y 0.322 -5.34 5.92 28.77178 -0.0215201 1.500529
z 1.373 -6.75 7.05 105.23674 0.4975537 2.251117

Il calcolo di eventuali oulier è agevole a partire dalla tabella precedente.

Esercizio E

Sia x una variabile binaria, ovvero una variable che può assumere solo due modalità (0 e 1). La frequenza relativa associata al valore 1 è f_1 mentre quella associata al valore 0 è f_0 = 1 - f_1.

  1. Si calcoli la varianza della variabile x in funzione di f_1, ovvero \text{var}(x). Si supponga quindi che f_1 = 0.4 e si dica quanto vale la varianza in questo caso particolare.

  2. Si disegni il grafico di \text{var}(x) in funzione di f_1. Si trovi quindi il valore di f_1 che rende massima \text{var}(x).

Esercizio F

Il peso (in kg) degli individui maschi adulti di una certa popolazione si distribuisce con media \bar{x} = 70 e deviazione standard \sigma = 15. Supponendo di non aver accesso ai dati completi, cosa è possibile dire riguardo alla frequenza relativa di individui appartenenti alle seguenti classi?

  1. Frequenza relativa della classe di peso [50, 90].
  2. Frequenza relativa della classe di peso [55, 85].
  3. (Difficile) Frequenza relativa della classe di peso [50, 100].

Si commentino i risultati.

Suggerimento. Si faccia uso della disuguaglianza di Chebyshev. Per quel che riguarda il terzo punto, si noti che [50,90] \subset [50,100].

Esercizio G

I dati x_1,\dots,x_n e y_1,\dots,y_n sono rappresentati negli istogrammi seguenti

  1. Quale delle due variabili presenta la maggiore variabilità?

  2. A giudicare dal grafico, quando vale (approssimativamente) l’indice di asimmetria di Pearson? E quello di Bowley?

Esercizio H

Si consideri la popolazione residente delle province della regione Lombardia e Veneto, al primo Gennaio 2023. I dati ISTAT sono riportati nelle seguenti tabelle.

Provincia (Regione Lombardia) Popolazione residente (Gennaio 2023)
Varese 877688
Como 595513
Sondrio 178472
Milano 3219391
Bergamo 1103768
Brescia 1253993
Pavia 534968
Cremona 351169
Mantova 404696
Lecco 332043
Lodi 227495
Monza e Brianza 871546
Provincia (Regione Veneto) Popolazione residente (Gennaio 2023)
Belluno 197751
Rovigo 227418
Venezia 833703
Vicenza 850942
Treviso 876115
Verona 923950
Padova 928374
  1. Si calcoli il rapporto di concentrazione di Gini per la regione Veneto e la regione Lombardia. Si commentino i risultati.

  2. Si disegnino quindi le curve di Lorenz corrispondenti.

Le tabelle seguenti costituiscono solamente uno schema della soluzione, non la soluzione stessa.

Provincia (Lombardia) Popolazione p_i q_i
Sondrio 178472 0.0833 0.0179
Lodi 227495 0.1667 0.0408
Lecco 332043 0.2500 0.0742
Cremona 351169 0.3333 0.1095
Mantova 404696 0.4167 0.1501
Pavia 534968 0.5000 0.2039
Como 595513 0.5833 0.2637
Monza e Brianza 871546 0.6667 0.3513
Varese 877688 0.7500 0.4395
Bergamo 1103768 0.8333 0.5504
Brescia 1253993 0.9167 0.6765
Milano 3219391 1.0000 1.0000

Di conseguenza, il rapporto di concentrazione di Gini per la regione Lombardia è \mathcal{R}_\text{lomb} = 1 - \frac{2}{n -1}\sum_{i=1}^{n-1} q_i = 1 - \frac{2}{11}(0.0179 + 0.0408 + 0.0742 + \cdots + 0.6765) = 0.4768. In alternativa, è possibile calcolare le differenza media semplice, ovvero \Delta_\text{lomb} = \frac{4}{n(n-1)}\left(\sum_{i=1}^n i x_{(i)}\right) - 2 \bar{x}_\text{lomb}\frac{n+1}{n-1} = \frac{4}{12 \cdot 11} \cdot 90772001 - 2 \cdot 829228.5 \frac{13}{11} = 790672.1.

dato che la media aritmetica è pari a \bar{x}_\text{lomb} = 829228.5. Pertanto,

\mathcal{R}_\text{lomb} = \frac{\Delta_\text{lomb}}{2 \bar{x}_\text{lomb}} = \frac{790672.1}{2 \cdot 829228.5}= 0.4768. Per quel che riguarda la regione Veneto, con conti analoghi si ottiene anzitutto la tabella seguente:

Provincia (Veneto) Popolazione p_i q_i
Belluno 197751 0.1429 0.0409
Rovigo 227418 0.2857 0.0879
Venezia 833703 0.4286 0.2602
Vicenza 850942 0.5714 0.4361
Treviso 876115 0.7143 0.6172
Verona 923950 0.8571 0.8081
Padova 928374 1.0000 1.0000

tramite la quale si perviene al rapporto di concentrazione di Gini pari a \mathcal{R}_\text{ven} = 0.2499. Le curve di Lorenz corrispondenti sono disegnate nel seguito.