Statistica I

Esercitazione 4: dati qualitativi, eterogeneità

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Homepage

Alcuni dei problemi di questa esercitazione non sono stati svolti a lezione. Si consiglia agli studenti di provare a risolvere i problemi autonomamente.

Litrotripsia extracorporea

La litrotripsia extracorporea è un trattamento relativamente poco gravoso per il paziente per la calcolosi.

Per valutarne l’efficiacia nel caso della calcolosi uretrale la risposta di n = 80 pazienti è stata rilevata utilizzando la seguente scala di modalità che si riferisce al grado di frammentazione dei calcoli dopo la prima seduta di trattamento:

  1. Buono: tutti i frammenti sono più piccoli di 3mm.
  2. Medio: nessun frammento sopra i 5mm, almeno uno maggiore di 3mm.
  3. Scarso: frammenti maggiori di 5mm.
  4. Assente: nessun segno di frammentazione deicalcoli originari.

Per ogni paziente è poi noto l’uretere (lombare, presacrale o pelvico) dove si erano formati i calcoli. I dati sono riassunti nella seguente tabella

Buono Medio Scarso Assente
Lombare 12 26 3 1
Pre-sacrale 2 8 0 0
Pelvico 12 13 2 1
  1. Qual è la moda della variabile “efficacia del trattamento” per i pazienti con calcolosi Lombare? Si produca un grafico a supporto della risposta.

  2. Si ottengano gli indici di eterogeneità (normalizzati) di Gini e l’entropia, nei tre casi.

  3. Quale uretere è meno variabile in termini di efficacia del trattamento?

La moda richiesta è pari a “Medio”, poichè la frequenza associata è pari a 26. Il diagramma a barre che evidenza questo aspetto è mostrato nel seguito.

Gli indici richiesti sono indicati nella tabella seguente. I calcoli sono stati omessi

Lombare Pre-sacrale Pelvico
G_\text{norm} 0.71 0.43 0.79
H_\text{norm} 0.67 0.36 0.74

Pertanto, gli indici normalizzati indicano una maggiore variabilità della risposta per le sedi “lombare” e “pelvica” rispetto a “pre-sacrale”.

Concentrazione del mercato

La tabella seguente riporta le quote di mercato dei principali produttori di energia elettrica in Italia nel 2000. In relazione a un mercato, gli indici di eterogeneità possono essere pensati come una misura del grado di concorrenza nel mercato stesso. Si valuti l’eterogeneità con appositi indici.

Operatore TWh (TeraWattora) Quota percentuale
Enel prod. 125.204 53.07
Erga 7.513 3.18
Valgen 0.127 0.05
Eurogen 22.471 9.52
Elettrogen 7.576 3.21
Interpower 19.636 8.32
Edison 17.254 7.31
Sondel 6.265 2.66
Altri 29.880 12.66

In questo caso le quote di mercato sono misurate come le quantità vendute da ciascun operatore rispetto alla domanda totale. Le “frequenze relative” sono dunque i rapporti tra i TWh erogati da ciascuna impresa e i TWh totali.

I calcoli necessari per l’ottenimento degli indici di entropia e di eterogeneità Gini sono riportati nel seguito.

Operatore f_j f_j^2 \log{f_j} f_j \log{f_j}
Enel prod. 0.5307 0.2816 -0.6336 -0.3362
Erga 0.0318 0.0010 -3.4469 -0.1098
Valgen 0.0005 0.0000 -7.5271 -0.0041
Eurogen 0.0952 0.0091 -2.3513 -0.2240
Elettrogen 0.0321 0.0010 -3.4385 -0.1104
Interpower 0.0832 0.0069 -2.4862 -0.2069
Edison 0.0731 0.0053 -2.6155 -0.1913
Sondel 0.0266 0.0007 -3.6285 -0.0964
Altri 0.1266 0.0160 -2.0663 -0.2617
Totale 1 0.32 -1.54

Pertanto, l’indice di eterogeneità Gini e l’indice di Gini normalizzato sono pari a

G = 1 - \sum_{j=1}^k f_j^2 = 1 - 0.32 = 0.68, \qquad G_\text{norm} = \frac{k}{k-1}G = 9/8\times0.68 = 0.765. L’entropia e l’entropia normalizzata sono invece pari a:

H = - \sum_{j=1}^kf_j \log{f_j} = 1.54, \qquad H_\text{norm} = H / \log{k} = 1.54 / \log{9} = 0.7.

Una possibilità alternativa consiste nel valutare la concorrenza del mercato tramite il rapporto di concentrazione di Gini.

Si ottenga anzitutto la tabella contenente le coppie (p_j, q_j), ordinate per quota. In questo contesto, si ha che

p_j = \frac{j}{n}, \qquad q_j = \sum_{i=1}^j f_{(i)}, \qquad j=1,\dots,n, dove f_{(1)},\dots,f_{(n)} sono le quote di mercato ordinate.

Operatore f_j p_j q_j
Valgen 0.0005 0.1111 0.0005
Sondel 0.0266 0.2222 0.0271
Erga 0.0318 0.3333 0.0589
Elettrogen 0.0321 0.4444 0.0910
Edison 0.0731 0.5556 0.1642
Interpower 0.0832 0.6667 0.2474
Eurogen 0.0952 0.7778 0.3427
Altri 0.1266 0.8889 0.4693
Enel prod. 0.5307 1.0000 1.0000

Da questa tabella il calcolo del rapporto di concentrazione di Gini è agevole, infatti: \mathcal{R} = 1 - \frac{2}{n -1}\sum_{j=1}^{n-1} q_j = 1 - \frac{2}{8}(0.0005 + 0.0271 + 0.0589 + \cdots + 0.4693) = 0.6497. Infine, la curva di Lorenz corrispondente è

Tifosi e squadre di calcio

Da un sondaggio condotto da un giornale sportivo in due regioni sul tifo per le principali squadre di calcio si sono ottenuti i risultati che seguono:

Tifosi Inter Tifosi Milan Tifosi Torino Tifosi Juventus
Piemonte 331 450 675 2354
Lombardia 2125 3374 591 721
  1. Qual è la moda nelle due regioni?

  2. In quale delle due regioni c’è più omogeneità? Rispondere calcolando opportuni indici.

  3. Rappresentare graficamente i dati.

La moda, ovvero la modalità con frequenza più elevata, è “Juventus” per la regione Piemonte mentre è “Milan” per la regione Lombardia.

I calcoli necessari per valutare gli indici di Gini e di entropia sono riportati nelle tabelle che seguono.

Regione Piemonte

f_j f_j^2 \log{f_j} f_j \log{f_j}
Inter 0.0869 0.0075 -2.4433 -0.2123
Milan 0.1181 0.0140 -2.1361 -0.2523
Torino 0.1772 0.0314 -1.7307 -0.3066
Juventus 0.6178 0.3817 -0.4815 -0.2975
Totale 1 0.4346 -1.0687

Regione Lombardia

f_j f_j^2 \log{f_j} f_j \log{f_j}
Inter 0.3120 0.0973 -1.1648 -0.3634
Milan 0.4954 0.2454 -0.7024 -0.3480
Torino 0.0868 0.0075 -2.4445 -0.2121
Juventus 0.1059 0.0112 -2.2457 -0.2377
Totale 1 0.3615 -1.1612

Pertanto, l’indice di Gini per Piemonte e Lombardia sono pari a

G_\text{Piem} = 1 - 0.43 = 0.57, \qquad G_\text{Lomb} = 1 - 0.36 = 0.64. Gli indici normalizzati, in entrambi i casi, si ottengono moltiplicando i rispettivi indici per 4/3, ottenendo 0.76 per il Piemonte e 0.85 per la Lombardia. L’entropia per piemonte e Lombardia sono invece pari a:

H_\text{Piem} = 1.07, \qquad H_\text{Lomb} = 1.16.

I corrispettivi indici relativi si ottengono dividendo entrambi i termini per \log{4} \approx 1.39. Ne risulta 0.77 per il Piemonte e 0.84 per la Lombardia.

Quindi, entrambi gli indici normalizzati suggeriscono che il Piemonte è più omogeneo (meno variabile) in termini di tifoserie.

Una possibile rappresentazione grafica è costituita dai diagrammi a barre, che sono riportati nel seguito. Per facilitare il confronto tra le due regioni, sono state usate le frequenze relative.