R per l’analisi statistica multivariata
Esame 24 Febbraio 2021
Problema 1
I numeri di Stirling del secondo tipo rappresentano il numero di possibili partizioni di un insieme di elementi formate da termini. È possibile dimostrare che
per qualsiasi valore di . I numeri di Bell rappresentano invece il numero di possibili partizioni di un insieme di elementi, independentemente dal numero di termini, ovvero
(6pt) Si scrivano in R le funzioni
stirling2(n, k)
eBell(n)
che calcolano, rispettivamente, i coefficienti e .(1pt) Utilizzando le funzioni del punto precedente, si dica in quanti modi è possibile dividere un insieme di elementi utilizzando gruppi.
(1pt) Utilizzando le funzioni dei punti precedenti, si dica in quanti modi è possibile partizionare un insieme di elementi.
Problema 2
Il numero armonico generalizzato è definito come
Inoltre, una variabile aleatoria discreta con supporto segue una distribuzione di Zipf se
ed è pari a altrimenti.
(2pt) Si scriva in R la funzione
H(n, alpha)
che calcola il numero armonico generalizzato. Quanto valeH(10, 1)
?(2pt) Si scriva in R la funzione di probabilità
dzipf(k, n, alpha)
di una legge Zipf di parametri ed e la si calcoli nei valoridzipf(5, 10, 2)
.(2pt) Per e , si rappresenti graficamente la legge di probabilità di una distribuzione Zipf tramite un diagramma a bastoncini.
(2pt) Si supponga che segua una Zipf di parametri e . Si calcoli la probabilità .
(3pt) Si scriva in R la funzione
rzipf(R, n, alpha)
che simulaR
valori casuali da una distribuzione Zipf. Suggerimento: si faccia uso della funzionesample
.(2pt) Sfruttando la funzione
rzipf
, si ottenga un’approssimazione del valore atteso , quando e .
Problema 3
Si consideri il dataset bacteria
della libreria MASS
e lo si carichi in memoria. La variabile y
indica la presenza (y
) o l’assenza (n
) del batterio “H influenzae” in alcuni bambini. La variabile trt
indica invece il trattamento ricevuto.
(3pt) L’indice di eterogeneità di Gini è definito come , dove sono le frequenze relative di una variabile qualitativa con modalità . Si costruisca in R la funzione
Gini(x)
che calcola l’indice di Gini di una variabile qualitativax
. Si ottenga quindiGini(bacteria$trt)
.(1pt) Si costruisca dataset
bacteria2
contenente le osservazioni relative alla sesta settimana di sorveglianza (week
=6
). Da quante osservazioni è composto?(1pt) Utilizzando il dataset
bacteria2
, si costruisca una tabella di contingenza che mette in relazione le variabiliy
etrt
.(2pt) Utilizzando il dataset
bacteria2
, si ottengano le distribuzioni di frequenza condizionate della variabiley
, per ciascun valore della variabiletrt
. Ci sono delle differenze tra queste distribuzioni?(2pt) Utilizzando il dataset
bacteria2
, si ri-eseguano i due punti precedenti (ovvero 3. e 4.) dopo aver raggruppato i valoridrug
edrug+
della variabiletrt
in un unico valore, chiamato ad esempiodrug_and_drug+
. I risultati sono diversi da quelli ottenuti al punto precedente (4.)?