R per l’analisi statistica multivariata

Esercizi 2

Autore/Autrice

Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Esercizio A

La varianza campionaria dei dati {\bf x} = (x_1,\dots,x_n) è definita come

\text{var}({\bf x}) = \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2, dove \bar{x} è la media campionaria. Si noti che \text{var}({\bf x}) ammette la rappresentazione alternativa

\text{var}({\bf x}) = \frac{1}{2 n^2} \sum_{i=1}^n \sum_{j = 1}^n (x_i - x_j)^2.

Si scriva una funzione var2(x) che calcola la varianza di {\bf x} utilizzando la definizione.
Si scriva una funzione var3(x) che calcola la varianza di {\bf x} utilizzando la formula basata sulle distanze tra coppie di elementi.
Si supponga che x = c(1, 4, 2, 2, 10). Si verifichi che le due funzioni var2(x) e var3(x) forniscono lo stesso risultato.
Si supponga ora che x <- 1:3000. Si notano differenze rispetto al punto precedente?
Si confrontino le funzioni var2 e var3 con la funzione var implementata in R, utilizzando i dati del punto 3. Come mai i risultati differiscono, anche se di poco? Si consulti la documentazione per rispondere.

Esercizio B

Questo esercizio ripercorre l’unità I del corso Statistica I, a cui si rimanda per un ripasso sull’indice di Gini e una descrizione del problema.

A questo link sono disponibili i dati delle elezioni municipali del 2016 presso il comune di Milano.

Si carichino in memoria i dati.
Quali variabili contiene il dataset elez? Di quale tipologia sono?
Si ottenga il numero di voti ottenuti da ciascun candidato nei differenti Municipi di Milano.
Si ottenga il numero di voti ottenuti da ciascun candidato e se ne faccia un grafico. Si ottenga inoltre la percentuale di voti ottenuti da ciascun candidato.
Si scriva la funzione Gini(x) che calcola l’indice di Gini per una variabile qualitativa. L’indice di Gini è definito come G = 1 - \sum_{j=1}^k f_j^2, dove f_1,\dots,f_k sono le frequenze relative delle k modalità.
Si scriva una funzione Gini_norm(x)che calcola l’indice di Gini normalizzato, ovvero G_\text{norm} = \frac{k}{k-1} G.
Si valuti la polarizzazione dei voti tra i candidati nelle diverse municipalità utilizzando l’indice di Gini normalizzato. Si organizzino quindi i risultati in una tabella e si dica quale municipalità presenta la polarizzazione maggiore.

Esercizio C

Questo esercizio riprende i dati considerati nell’unità J del corso Statistica I, a cui si rimanda per una descrizione più approfondita del dataset.

I dati sono disponibili a questo link.

Si carichino i dati in memoria e si salvi il dataset nell’oggetto province.
Quali variabili contiene il dataset province? Di quale tipologia sono?
Si rappresenti graficamente la variabile istruzione tramite istogramma. Si calcoli quindi media, mediana e varianza.
Si rappresenti graficamente la funzione di ripartizione della variabile agricoltura.
Si rappresenti il diagramma a dispersione delle variabili agricoltura e istruzione. Si può notare una qualche relazione?
Si ottenga la matrice di varianza e covarianza.
Si ottenga la matrice di correlazione. Si commenti la relazione esistente tra agricoltura e istruzione.

Esercizio D

Nel dataset calcio disponibile a questo link, ciascuna unità statistica rappresenta una partita di calcio della Serie A italiana, relativa ai campionati 2008-2015. Il dataset è composto dalle seguenti variabili:

Date indica la data della partita.
HomeTeam e AwayTeam indicano, rispettivamente, la squadra che gioca in casa e la squadra ospite per ciascuna partita.
FTR indica se la squadra che giocava in casa ha vinto (H), pareggiato (D), oppure perso (A).
Le variabili B365H, B365D, B365A sono le quote per la vittoria, pareggio, sconfitta della squadra di casa.

Supponendo di scommettere sulla vittoria della squadra di casa, puntando un euro su di essa si otterrebbero B365H euro in caso di vittoria.

Si carichi il dataset in memoria.
Verificare le tipologie di variabili presenti nel dataset calcio.
Controllare se esistono dei dati mancanti nel dataset. Se presenti, si escludano le righe contenenti dei valori mancanti dall’analisi. Suggerimento: si usi la funzione na.omit.
Calcolare i principali indici descrittivi per la variabile B365H. Rappresentarla poi tramite istogramma ed il boxplot. Sono presenti valori anomali? Da cosa è possibile intuirlo?
Effettuare l’analisi del punto precedenti sulla trasformazione logaritmica di B365H. Sono presenti valori anomali?
Valutare la correlazione presente tra B365H e B365A. Ci si poteva aspettare un risultato simile? Cosa implicherebbe una correlazione positiva?
Rappresentare con un grafico opportuno la relazione tra le trasformate logaritmiche delle variabili B365H e B365A. Si commenti il risultato.
Valutare la quota media B365H per ciascuna categoria della variabile FTR. Come si interpreta questo risultato?
Rappresentare tramite boxplot la variabile B365H per ciascuna categoria della variabile FTR. Si commenti il risultato.

Esercizio E

Nel dataset imdb disponibile a questo link, ciascuna unità statistica è un film estratto dal sito http://www.imdb.com/ (Internet Movie Data Base). Per ciascun film, sono a disposizione le seguenti variabili:

movie_title è il titolo del film.
duration è la durata del film espressa in minuti.
lgrossè la trasformazione logaritmica dell’incasso lordo, espresso in dollari.
lbudgetè la trasformazione logaritmica del budget, espresso in dollari.
Action, Adventure, Animation, Comedy, Crime, Documentary, Drama, Family, Fantasy, History, Horror, Music, Romance, SciFi, Thriller, War, Western, sono variabili qualitative che indicano se il film appartiene o meno al genere. Ciascun film può appartenere a più generi contemporaneamente.

Si carichi il dataset in memoria. Si controlli la tipologia delle variabili.
Quante sono le unità statistiche?
Qual è la durata media dei film del dataset? E l’incasso medio?
Ci sono differenze tra la distribuzione della durata (duration) dei film drammatici (Drama) e quelli non drammatici? Si risponda tramite opportuni indici descrittivi ed analisi grafiche.
Quali sono i 5 film che presentano, all’interno del dataset, i maggiori incassi? Suggerimento: si usi la funzione order.
Rappresentare con grafici appropriati le distribuzioni marginali e la distribuzione congiunta delle variabili lbudget e lgross. Che tipo di relazione sembra esserci tra le due variabili?
Si calcoli la correlazione tra lbudget e lgross e si commenti il risultato.
Si calcoli la correlazione tra duration e lgross e si commenti il risultato. Possiamo quindi concludere che, per guadagnare molto, sia sufficiente produrre un film della durata di 12 ore?

Esercizi tratti dai libro di testo Albert & Rizzo (AR)

Esercizio 1.14, pag. 41.
Esercizio 2.1, pag. 75.
Esercizio 2.2, pag. 75.
Esercizio 2.3, pag. 75.
Esercizi 2.4 e 2.5, pag. 75-76.
Esercizio 2.10, pag. 77.
Esercizio 2.12, pag. 77.
Esercizio 3.1, pag. 96.
Esercizio 3.4, pag. 98.