Posizione | Vittorie |
---|---|
1 | 29 |
2 | 19 |
3 | 18 |
4 | 25 |
5 | 17 |
6 | 10 |
7 | 15 |
8 | 11 |
Statistica I
Esame 15 Febbraio 2021
Esercizio 1
I seguenti dati sono stati raccolti negli Stati Uniti per capire se le probabilità di vittoria di un cavallo durante una gara dipendono dalla posizione alla partenza. Ogni gara coinvolge 8 cavalli. La posizione 1 è quella più interna mentre la posizione 8 è quella più esterna. I dati si riferiscono alla posizione iniziale di ciascuno dei 144 vincitori.
Si tratti la variabile posizione
come qualitativa ordinale.
Si rappresenti graficamente la variabile
posizione
utilizzando un diagramma a bastoncini.Si ottengano la moda e la mediana della
posizione
dei cavalli vincitori.Si ottenga il primo e terzo quartile della la variabile
posizione
.Si calcolino gli indice di Gini e Shannon normalizzati della variabile
posizione
.A cosa corrisponde la minima mutabilità, in questo problema specifico, in termini qualitativi? A cosa corrisponde la massima mutabilità?
Sulla base dei punti precedenti, è ragionevole assumere che la posizione influenzi la probabilità di vittoria?
Schema della soluzione
Dalla tabella fornita nel testo si nota immediatamente che le prime 4 posizioni presentano frequenze maggiori rispetto alle ultime 4. Viceversa, gli indici di Gini e Shannon normalizzati sono entrambi prossimi al valore massimo, suggerendo quindi uno scenario di massima mutabilità.
Per stabilire quindi se e quanto la posizione iniziale influenzi la probabilità di vittoria è quindi utile tenere in considerazione tutti questi indicatori. Gli indici di Gini e Shannon normalizzati suggeriscono che il ruolo della posizione è abbastanza marginale ai fini della vittoria della gara. Al tempo stesso, una diretta ispezione della tabella suggerisce che la posizione ha un impatto sull’esito della gara, seppur abbastanza limitato.
Le differenze diventano maggiormente apprezzabili se si considera la seguente tabella, in cui le posizioni sono state aggregate:
Posizione | Vittorie |
---|---|
1 - 4 | 91 |
5 - 8 | 53 |
Il nuovo coefficiente di Gini normalizzato in questo caso è pari a 0.930
. Questa tabella conferma nuovamente che la posizione sembra influenzare l’esito, anche se non di molto.
Esercizio 2
I dati seguenti sono stati raccolti da una compagnia assicurativa americana e mostra il numero di decessi dovuti al paracadutismo avvenuti in 3 anni diversi (1973, 1974, 1975). I decessi sono classificati a seconda dell’esperienza del paracadutista.
Esperienza | 1973 | 1974 | 1975 |
---|---|---|---|
Bassa | 14 | 15 | 14 |
Medio-Bassa | 7 | 4 | 7 |
Medio-Alta | 8 | 2 | 10 |
Alta | 15 | 9 | 10 |
Si ottenga la distribuzione marginale della variabile
esperienza
. Qual è il valore modale?Sulla base dei dati disponibili è possibile concludere che una maggiore esperienza aumenta il rischio di decesso? Si giustifichi adeguatamente la risposta anche sulla base di argomentazioni qualitative.
Si ottengano le distribuzioni condizionate della variabile
esperienza
per ciascuno dei tre anni.Si ottenga la precedente tabella di contingenza sotto l’ipotesi di indipendenza tra le variabili
anno
eesperienza
.È ragionevole assumere che via sia una relazione tra le variabili
anno
edesperienza
? Si risponda tramite indici opportuni.
Schema della soluzione
La distribuzione marginale della variabile esperienza
è la seguente:
Esperienza | Bassa | Medio-Bassa | Medio-Alta | Alta |
---|---|---|---|---|
Frequenze assolute | 43 | 18 | 20 | 34 |
La moda della variabile esperienza
è la modalità “bassa”. Tuttavia, il numero di decessi di paracadutisti con alta esperienza è maggiore di quelli con esperienza medio-bassa e medio-alta. Quest’ultimo fatto potrebbe (erroneamente) suggerire che una maggiore esperienza conduce ad un rischio maggiore di decesso, un’affermazione che in effetti sembra essere molto controintuitiva.
Il motivo di questa apparente contraddizione probabilmente risiede nel modo in cui sono stati raccolti i dati. Ciò di cui avremmo bisogno per prendere una decisione più informata è del numero di lanci con il paracadute effettuati con successo, suddivisi per livello di esperienza. È infatti verosimile che la maggior parte dei paracadutisti sia molto esperta e questo di conseguenza potrebbe aver condotto ad un altro numero di decessi (34
) rispetto a quelli con esperienza media (18
e 20
).
In conclusione, questi dati non sono sufficienti per stabilire se l’esperienza aumenta / diminuisce il rischio di decesso. Per misurare quest’ultimo fenomeno, sarebbe utile confrontare il rapporto numero di decessi / numero di salti complessivo
, per ciascun livello di esperienza.
Esercizio 3
Sia G l’indice di Gini associato ad una variabile qualitativa con modalità c_1,\dots,c_k e frequenze relative f_1,\dots,f_k.
Sia G = 1 - \sum_{j=1}^kf_j^2 una definizione dell’indice di Gini. Si dimostri quale valore assume G in condizioni di minima e massima mutabilità.
Si dia la definizione di indice di Gini in termini della distanza di Hamming e si dimostri l’equivalenza con l’indice descritto al punto precedente, giustificando opportunamente tutti i passaggi.