Statistica I

Esercitazione 3: variabilità, istogrammi, boxplot, simmetria, curtosi

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Homepage

Alcuni dei problemi di questa esercitazione non sono stati svolti a lezione. Si consiglia agli studenti di provare a risolvere i problemi autonomamente.

Strani indici

Si dica se gli indici elencati di seguito possono o non possono essere interpretati come una misura di posizione oppure di variabilità di un certo insieme di dati tutti positivi, y_1, \dots, y_n. Il simbolo \mathcal{Q}_p indica il quantile p.

  1. \frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^n(y_i - y_j).

  2. \frac{1}{n^2}\sum_{i=1}^n\sum_{j=1}^n(y_i - y_j)^2.

  3. \frac{1}{2n^2}\sum_{i=1}^n\sum_{j=1}^n|y_i - y_j|.

  4. \exp\left\{\frac{1}{n}\sum_{i=1}^n\log{x_i}\right\}.

  5. \mathcal{Q}_{0.5} - \mathcal{Q}_{0.25} + |\mathcal{Q}_{0.5} - \mathcal{Q}_{0.75}|

  1. Questo indice è sempre pari a zero, quindi certamente non è adatto per misurare nè la posizione nè la variabilità.

  2. Questo indice è pari al doppio della varianza campionaria.

  3. Questo indice è una misura robusta di variabilità.

  4. Questo indice è una riscrittura della media geometrica \mathbb{G}.

  5. Questo indice è una riscrittura dello scarto interquartile. Si noti infatti che |\mathcal{Q}_{0.5} - \mathcal{Q}_{0.75}| = \mathcal{Q}_{0.75} - \mathcal{Q}_{0.5}.

Tubi catodici

Una vecchia fabbrica di televisori produce due tipi di tubi catodici: il tipo A e il tipo B. I tubi catodici hanno tempi di durata media, rispettivamente di 1495 ore e 1875 ore e scarti quadratici medi rispettivamente di 280 ore e 310 ore. In generale, è preferibile il tubo catodico che ha la durata più alta e variabilità più bassa.

Quale dei due tubi catodici è preferibile?

I tubi catodici di tipo B hanno durata media maggiore dei tubi catodici di tipo A. Anche la varianza dei tubi catodici di tipo B è maggiore di quelli di tipo A.

Tuttavia i due scarti quadratici medi non sono immediatamente confrontabili, poichè le medie delle due tipologie sono diverse. Un indicatore più adeguato in questo caso è il coefficiente di variazione:

\text{CV}_A = \frac{\sigma_A}{\bar{x}_A} = \frac{280}{1495} \approx 0.187, \quad \text{CV}_B = \frac{\sigma_B}{\bar{x}_B} = \frac{310}{1875} \approx 0.165,

Concludiamo quindi che la tipologia B è preferibile, essendo caratterizzata da una media maggiore e un coefficiente di variazione minore.

Lampadine

Un’azienda produttrice di lampadine controlla la durata dei suoi prodotti facendo funzionare n = 200 lampadine ininterrottamente fino a che si rompono. A determinati istanti di tempo si effettua un controllo e si verifica quante in totale non sono più funzionanti. I dati sono riportati nella tabella seguente

Tempo 10 30 100 150 200 400
Rotture cumulate 2 20 40 80 120 170

Si noti che 30 lampadine non si sono mai rotte.

  1. Si valuti la “durata media” e si dia un indice di posizione appropriato per sintetizzare la distribuzione delle durate.

  2. Si calcoli un opportuno indice di variabilità.

In primo luogo, ri-organizziamo la tabella in maniera tale da evidenziare gli intervalli considerati

Tempo (0, 10] (10, 30] (30, 100] (100,150] (150,200] (200,400] (400, \infty]
n_j 2 18 20 40 40 50 30
f_j 0.01 0.09 0.10 0.20 0.20 0.25 0.15
F_j 0.01 0.1 0.20 0.40 0.60 0.85 1

Si noti che un totale di 200 - 170 = 30 lampadine non si sono mai rotte entro il tempo 400. Questo pone delle difficoltà nel calcolo della media. Infatti, non è chiaro quale valore sia il valore centrale dell’intervallo (400, \infty]. Qualunque scelta dovrebbe ben essere giustificata.

La mediana non risente di questo problema. La mediana appartiene necessariamente all’intervallo (150,200]. Utilizzando l’approssimazione lineare, otteniamo che

\text{Me} \approx 150 + (200 - 150)\frac{0.5 - 0.4}{0.6 - 0.4} = 175. Per le stesse ragioni menzionate prima, ci sono delle difficoltà nel calcolo della varianza. Consideriamo quindi lo scarto interquartile. Utilizzando l’approssimazione lineare, si ottiene

\mathcal{Q}_{0.25} \approx 100 + (150 - 100)\frac{0.25 - 0.2}{0.4 - 0.2} = 112.5. \mathcal{Q}_{0.75} \approx 200 + (400 - 200)\frac{0.75 - 0.6}{0.85 - 0.6} = 320. Pertanto lo scarto interquartile è pari a

\mathcal{Q}_{0.75} - \mathcal{Q}_{0.25} = 207.5.

Altezza delle persone

Rilevando in centrimetri la statura di n = 136 persone, si sono contate 30 persone con statura compresa tra i 150 e 170cm; 44 con statura tra 170 e 180; 52 tra 180 e 190 e 10 tra 190 e 197, che è la statura massima rilevata.

Si rappresentino i dati con un istogramma.

Supponendo che le classi siano chiuse a destra, possiamo rappresentare i dati nella seguente tabella:

Classi di statura Frequenza assoluta Ampiezza della classe Densità di frequenza Altezza rettangoli
(150, 170] 30 20 1.5 0.011
(170, 180] 44 10 4.4 0.032
(180,190] 52 10 5.2 0.038
(190,197] 10 7 1.429 0.010

Moscerini della frutta

Un gruppo di ricercatori sta valutando la tossicità su D. melanogaster (moscerini della frutta) di un composto molecolare. I moscerini vengono divisi casualmente in 10 gruppi e vengono trattati col composto. Dopo 1 giorno si registra la percentuale di moscerini non sopravvissuti per l’eccessiva tossicità.

Gruppo 1 2 3 4 5 6 7 8 9 10
Frazione di decessi 0.38 0.32 0.59 0.58 0.41 0.87 0.54 0.4 0.42 0.4
  1. Si individuino le distribuzioni di frequenze assolute cumulate, relative e relative cumulate della mortalità dei moscerini.

  2. Si tracci il box-plot.

  3. Si calcolino media e lo scarto quadratico medio.

  4. Si calcoli un indice di variabilità robusto.

La tabella delle frequenze è riportata qui di seguito.

Frazione di decessi 0.32 0.38 0.4 0.41 0.42 0.54 0.58 0.59 0.87
n_j 1 1 2 1 1 1 1 1 1
N_j 1 2 4 5 6 7 8 9 10
f_j 0.1 0.1 0.2 0.1 0.1 0.1 0.1 0.1 0.1
F_j 0.1 0.2 0.4 0.5 0.6 0.7 0.8 0.9 1

La media è pari a 0.491 mentre lo scarto quadratico medio è pari a 0.153. La mediana è pari a 0.415, mentre i quantili sono invece pari a

##  25%  75% 
## 0.40 0.58

È presente un outlier. Pertanto, il boxplot si ottiene come segue:

Un indice di variabilità robusto è il MAD, pari in questo caso a 0.065.