R per l’analisi statistica multivariata
Esercizi 2
Esercizio A
La varianza campionaria dei dati {\bf x} = (x_1,\dots,x_n) è definita come
\text{var}({\bf x}) = \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2, dove \bar{x} è la media campionaria. Si noti che \text{var}({\bf x}) ammette la rappresentazione alternativa
\text{var}({\bf x}) = \frac{1}{2 n^2} \sum_{i=1}^n \sum_{j = 1}^n (x_i - x_j)^2.
Si scriva una funzione
var2(x)
che calcola la varianza di {\bf x} utilizzando la definizione.Si scriva una funzione
var3(x)
che calcola la varianza di {\bf x} utilizzando la formula basata sulle distanze tra coppie di elementi.Si supponga che
x = c(1, 4, 2, 2, 10)
. Si verifichi che le due funzionivar2(x)
evar3(x)
forniscono lo stesso risultato.Si supponga ora che
x <- 1:3000
. Si notano differenze rispetto al punto precedente?Si confrontino le funzioni
var2
evar3
con la funzionevar
implementata in R, utilizzando i dati del punto 3. Come mai i risultati differiscono, anche se di poco? Si consulti la documentazione per rispondere.
Esercizio B
Questo esercizio ripercorre l’unità I del corso Statistica I, a cui si rimanda per un ripasso sull’indice di Gini e una descrizione del problema.
A questo link sono disponibili i dati delle elezioni municipali del 2016 presso il comune di Milano.
Si carichino in memoria i dati.
Quali variabili contiene il dataset
elez
? Di quale tipologia sono?Si ottenga il numero di voti ottenuti da ciascun candidato nei differenti Municipi di Milano.
Si ottenga il numero di voti ottenuti da ciascun candidato e se ne faccia un grafico. Si ottenga inoltre la percentuale di voti ottenuti da ciascun candidato.
Si scriva la funzione
Gini(x)
che calcola l’indice di Gini per una variabile qualitativa. L’indice di Gini è definito come G = 1 - \sum_{j=1}^k f_j^2, dove f_1,\dots,f_k sono le frequenze relative delle k modalità.Si scriva una funzione
Gini_norm(x)
che calcola l’indice di Gini normalizzato, ovvero G_\text{norm} = \frac{k}{k-1} G.Si valuti la polarizzazione dei voti tra i candidati nelle diverse municipalità utilizzando l’indice di Gini normalizzato. Si organizzino quindi i risultati in una tabella e si dica quale municipalità presenta la polarizzazione maggiore.
Esercizio C
Questo esercizio riprende i dati considerati nell’unità J del corso Statistica I, a cui si rimanda per una descrizione più approfondita del dataset.
I dati sono disponibili a questo link.
Si carichino i dati in memoria e si salvi il dataset nell’oggetto
province
.Quali variabili contiene il dataset
province
? Di quale tipologia sono?Si rappresenti graficamente la variabile
istruzione
tramite istogramma. Si calcoli quindi media, mediana e varianza.Si rappresenti graficamente la funzione di ripartizione della variabile
agricoltura
.Si rappresenti il diagramma a dispersione delle variabili
agricoltura
eistruzione
. Si può notare una qualche relazione?Si ottenga la matrice di varianza e covarianza.
Si ottenga la matrice di correlazione. Si commenti la relazione esistente tra
agricoltura
eistruzione
.
Esercizio D
Nel dataset calcio
disponibile a questo link, ciascuna unità statistica rappresenta una partita di calcio della Serie A italiana, relativa ai campionati 2008-2015. Il dataset è composto dalle seguenti variabili:
Date
indica la data della partita.HomeTeam
eAwayTeam
indicano, rispettivamente, la squadra che gioca in casa e la squadra ospite per ciascuna partita.FTR
indica se la squadra che giocava in casa ha vinto (H), pareggiato (D), oppure perso (A).Le variabili
B365H
,B365D
,B365A
sono le quote per la vittoria, pareggio, sconfitta della squadra di casa.
Supponendo di scommettere sulla vittoria della squadra di casa, puntando un euro su di essa si otterrebbero B365H
euro in caso di vittoria.
Si carichi il dataset in memoria.
Verificare le tipologie di variabili presenti nel dataset
calcio
.Controllare se esistono dei dati mancanti nel dataset. Se presenti, si escludano le righe contenenti dei valori mancanti dall’analisi. Suggerimento: si usi la funzione
na.omit
.Calcolare i principali indici descrittivi per la variabile
B365H
. Rappresentarla poi tramite istogramma ed il boxplot. Sono presenti valori anomali? Da cosa è possibile intuirlo?Effettuare l’analisi del punto precedenti sulla trasformazione logaritmica di
B365H
. Sono presenti valori anomali?Valutare la correlazione presente tra
B365H
eB365A
. Ci si poteva aspettare un risultato simile? Cosa implicherebbe una correlazione positiva?Rappresentare con un grafico opportuno la relazione tra le trasformate logaritmiche delle variabili
B365H
eB365A
. Si commenti il risultato.Valutare la quota media
B365H
per ciascuna categoria della variabileFTR
. Come si interpreta questo risultato?Rappresentare tramite boxplot la variabile
B365H
per ciascuna categoria della variabileFTR
. Si commenti il risultato.
Esercizio E
Nel dataset imdb
disponibile a questo link, ciascuna unità statistica è un film estratto dal sito http://www.imdb.com/ (Internet Movie Data Base). Per ciascun film, sono a disposizione le seguenti variabili:
movie_title
è il titolo del film.duration
è la durata del film espressa in minuti.lgross
è la trasformazione logaritmica dell’incasso lordo, espresso in dollari.lbudget
è la trasformazione logaritmica del budget, espresso in dollari.Action, Adventure, Animation, Comedy, Crime, Documentary, Drama, Family, Fantasy, History, Horror, Music, Romance, SciFi, Thriller, War, Western
, sono variabili qualitative che indicano se il film appartiene o meno al genere. Ciascun film può appartenere a più generi contemporaneamente.
Si carichi il dataset in memoria. Si controlli la tipologia delle variabili.
Quante sono le unità statistiche?
Qual è la durata media dei film del dataset? E l’incasso medio?
Ci sono differenze tra la distribuzione della durata (
duration
) dei film drammatici (Drama
) e quelli non drammatici? Si risponda tramite opportuni indici descrittivi ed analisi grafiche.Quali sono i 5 film che presentano, all’interno del dataset, i maggiori incassi? Suggerimento: si usi la funzione
order
.Rappresentare con grafici appropriati le distribuzioni marginali e la distribuzione congiunta delle variabili
lbudget
elgross
. Che tipo di relazione sembra esserci tra le due variabili?Si calcoli la correlazione tra
lbudget
elgross
e si commenti il risultato.Si calcoli la correlazione tra
duration
elgross
e si commenti il risultato. Possiamo quindi concludere che, per guadagnare molto, sia sufficiente produrre un film della durata di 12 ore?
Esercizi tratti dai libro di testo Albert & Rizzo (AR)
- Esercizio 1.14, pag. 41.
- Esercizio 2.1, pag. 75.
- Esercizio 2.2, pag. 75.
- Esercizio 2.3, pag. 75.
- Esercizi 2.4 e 2.5, pag. 75-76.
- Esercizio 2.10, pag. 77.
- Esercizio 2.12, pag. 77.
- Esercizio 3.1, pag. 96.
- Esercizio 3.4, pag. 98.