R per l’analisi statistica multivariata
Esame 24 Febbraio 2021
Problema 1
I numeri di Stirling del secondo tipo S(n,k) rappresentano il numero di possibili partizioni di un insieme di n elementi formate da k termini. È possibile dimostrare che
S(n, k) = \frac{1}{k!}\sum_{j=0}^k(-1)^{k-j}\binom{k}{j}j^n, per qualsiasi valore di k =1,\dots,n. I numeri di Bell B(n) rappresentano invece il numero di possibili partizioni di un insieme di n elementi, independentemente dal numero di termini, ovvero
B(n) = \sum_{k=1}^n S(n, k).
(6pt) Si scrivano in R le funzioni
stirling2(n, k)
eBell(n)
che calcolano, rispettivamente, i coefficienti S(n,k) e B(n).(1pt) Utilizzando le funzioni del punto precedente, si dica in quanti modi è possibile dividere un insieme di 10 elementi utilizzando 5 gruppi.
(1pt) Utilizzando le funzioni dei punti precedenti, si dica in quanti modi è possibile partizionare un insieme di 10 elementi.
Problema 2
Il numero armonico generalizzato è definito come
H(n,\alpha) = 1 + \frac{1}{2^\alpha} + \cdots + \frac{1}{n^\alpha} = \sum_{k=1}^n\frac{1}{k^\alpha}, \qquad \alpha > 0.
Inoltre, una variabile aleatoria discreta X con supporto \{1,\dots, n\} segue una distribuzione di Zipf se
P(X = k) = \frac{k^{-\alpha}}{H(n, \alpha)}, \qquad k=1,\dots,n, ed è pari a 0 altrimenti.
(2pt) Si scriva in R la funzione
H(n, alpha)
che calcola il numero armonico generalizzato. Quanto valeH(10, 1)
?(2pt) Si scriva in R la funzione di probabilità
dzipf(k, n, alpha)
di una legge Zipf di parametri n ed \alpha e la si calcoli nei valoridzipf(5, 10, 2)
.(2pt) Per n = 50 e \alpha = 1, si rappresenti graficamente la legge di probabilità di una distribuzione Zipf tramite un diagramma a bastoncini.
(2pt) Si supponga che X segua una Zipf di parametri n = 100 e \alpha = 2. Si calcoli la probabilità P(X \ge 10).
(3pt) Si scriva in R la funzione
rzipf(R, n, alpha)
che simulaR
valori casuali da una distribuzione Zipf. Suggerimento: si faccia uso della funzionesample
.(2pt) Sfruttando la funzione
rzipf
, si ottenga un’approssimazione del valore atteso E(X), quando n = 50 e \alpha = 1.
Problema 3
Si consideri il dataset bacteria
della libreria MASS
e lo si carichi in memoria. La variabile y
indica la presenza (y
) o l’assenza (n
) del batterio “H influenzae” in alcuni bambini. La variabile trt
indica invece il trattamento ricevuto.
(3pt) L’indice di eterogeneità di Gini è definito come G = 1 - \sum_{j=1}^kf_j^2, dove f_1,\dots,f_k sono le frequenze relative di una variabile qualitativa con modalità c_1,\dots,c_k. Si costruisca in R la funzione
Gini(x)
che calcola l’indice di Gini di una variabile qualitativax
. Si ottenga quindiGini(bacteria$trt)
.(1pt) Si costruisca dataset
bacteria2
contenente le osservazioni relative alla sesta settimana di sorveglianza (week
=6
). Da quante osservazioni è composto?(1pt) Utilizzando il dataset
bacteria2
, si costruisca una tabella di contingenza che mette in relazione le variabiliy
etrt
.(2pt) Utilizzando il dataset
bacteria2
, si ottengano le distribuzioni di frequenza condizionate della variabiley
, per ciascun valore della variabiletrt
. Ci sono delle differenze tra queste distribuzioni?(2pt) Utilizzando il dataset
bacteria2
, si ri-eseguano i due punti precedenti (ovvero 3. e 4.) dopo aver raggruppato i valoridrug
edrug+
della variabiletrt
in un unico valore, chiamato ad esempiodrug_and_drug+
. I risultati sono diversi da quelli ottenuti al punto precedente (4.)?