Esame del 9 Luglio 2014

Statistics III - CdL SSE

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Homepage

Il disastro dello shuttle Challenger

Il disastro dello shuttle Challenger avvenne il 28 gennaio 1986, 73 secondi dopo il decollo. Morirono tutte le 7 persone a bordo, tra cui un’insegnante.

L’incidente fu causato dal guasto delle guarnizioni (orings) in un razzo a propellente solido, che portò all’esplosione del serbatoio esterno. L’evento fu trasmesso in diretta TV e seguito da milioni di persone, anche perché era previsto che l’insegnante Christa McAuliffe tenesse una lezione dallo spazio. I voli con equipaggio ripresero solo due anni e mezzo dopo, con la missione dello Shuttle Discovery nel settembre 1988.

I dati sono stati analizzati da una commissione d’inchiesta ed in seguito ben descritti nell’articolo scientifico:

S. Dalal, E. Fowlkes and B. Hoadley (1989). “Risk analysis of the space shuttle: pre-challenger prediction of failure.” Journal of the American Statistical Association. 84 945-957.

Gli eventi del Challenger sono stati narrati nella docuserie originale Netflix di quattro episodi del 2020 dal titolo “Challenger: l’ultimo volo”.

Analisi del dataset orings

Il dataset orings contenuto nella libreria faraway contiene i dati relativi a 23 precedenti lanci dello shuttle Challenger, con l’obiettivo di modellare la probabilità di guasto di ogni guarnizione in funzione della temperatura esterna al momento del lancio. La temperatura esterna nel giorno del disastro era di 31 gradi Fahrenheit.

Le variabili presenti sono:

  • damage: numero di guarnizioni danneggiate (su m_i = 6)
  • temp: temperatura in gradi Fahrenheit

Facendo uso del software R, si risponda alle seguenti domande:

  1. Si stimi un GLM opportuno facendo ricorso al link canonico considerando la temperatura come variable esplicativa. Si riportino:

    1. L’equazione che esprime la risposta media stimata in funzione della esplicativa (equazione del modello stimato);
    2. il valore dell’indicatore AIC;
    3. Il p-value del test per la bontà del modello (modello stimato vs modello nullo) basato sulla devianza, commentando ipotesi nulla e valore numerico ottenuto.
  2. Si commenti (senza riportarla) la diagnostica grafica di base fornita da R per il modello stimato.

  3. Si fornisca un’interpretazione per la stima del coefficiente della variable esplicativa.

  4. Si fornisca una previsione per la probabilità di guasto in corrispondenza della temperatura 31, cioè quella prevista in occasione del 24esimo lancio.

  5. Si riporti il grafico della curva stimata sovraimposta ai punti osservati. Il range per l’esplicativa deve essere (30, 85), cioè più esteso di quello osservato.

  6. Si riportino le frequenze assolute osservate dei guasti e quelle previste dal modello, arrotondate al secondo decimale, e si commentino i valori ottenuti.

  7. Si vuole applicare il test di Hosmer–Lemeshow che sottopone a verifica la bontà del modello raggruppando i dati.

    1. Si costruisca la matrice n \times 2 che contiene le frequenze assolute osservate (I colonna) e attese (II colonna). Si tratta delle stesse quantità già calcolate al punto f.
    2. Si divida la matrice in 3 blocchi di numerosità simile (8, 8 e 7).
    3. Per ogni blocco si calcolino le 4 quantità utili ai fini del test (successi totali osservati e attesi, insuccessi totali osservati e attesi) e si riportino i valori ottenuti.
    4. Si calcoli il valore assunto dalla statistica test X^2_\text{HL} e lo si riporti.
    5. Si calcoli il p-value e si decida in merito all’accettazione o al rifiuto dell’ipotesi nulla.

Teoria

  1. Si illustri il concetto di residuo di devianza nell’ambito dei GLM e se ne illustri l’utilizzo.

  2. Omessa. La domanda faceva riferimento a concetti di statistica nonparametrica, che non sono più parte del programma.