R per l’analisi statistica multivariata
Esame 24 Febbraio 2021
Problema 1
I numeri di Stirling del secondo tipo S(n,k) rappresentano il numero di possibili partizioni di un insieme di n elementi formate da k termini. È possibile dimostrare che
S(n, k) = \frac{1}{k!}\sum_{j=0}^k(-1)^{k-j}\binom{k}{j}j^n, per qualsiasi valore di k =1,\dots,n. I numeri di Bell B(n) rappresentano invece il numero di possibili partizioni di un insieme di n elementi, independentemente dal numero di termini, ovvero
B(n) = \sum_{k=1}^n S(n, k).
(6pt) Si scrivano in R le funzioni
stirling2(n, k)eBell(n)che calcolano, rispettivamente, i coefficienti S(n,k) e B(n).(1pt) Utilizzando le funzioni del punto precedente, si dica in quanti modi è possibile dividere un insieme di 10 elementi utilizzando 5 gruppi.
(1pt) Utilizzando le funzioni dei punti precedenti, si dica in quanti modi è possibile partizionare un insieme di 10 elementi.
Problema 2
Il numero armonico generalizzato è definito come
H(n,\alpha) = 1 + \frac{1}{2^\alpha} + \cdots + \frac{1}{n^\alpha} = \sum_{k=1}^n\frac{1}{k^\alpha}, \qquad \alpha > 0.
Inoltre, una variabile aleatoria discreta X con supporto \{1,\dots, n\} segue una distribuzione di Zipf se
P(X = k) = \frac{k^{-\alpha}}{H(n, \alpha)}, \qquad k=1,\dots,n, ed è pari a 0 altrimenti.
(2pt) Si scriva in R la funzione
H(n, alpha)che calcola il numero armonico generalizzato. Quanto valeH(10, 1)?(2pt) Si scriva in R la funzione di probabilità
dzipf(k, n, alpha)di una legge Zipf di parametri n ed \alpha e la si calcoli nei valoridzipf(5, 10, 2).(2pt) Per n = 50 e \alpha = 1, si rappresenti graficamente la legge di probabilità di una distribuzione Zipf tramite un diagramma a bastoncini.
(2pt) Si supponga che X segua una Zipf di parametri n = 100 e \alpha = 2. Si calcoli la probabilità P(X \ge 10).
(3pt) Si scriva in R la funzione
rzipf(R, n, alpha)che simulaRvalori casuali da una distribuzione Zipf. Suggerimento: si faccia uso della funzionesample.(2pt) Sfruttando la funzione
rzipf, si ottenga un’approssimazione del valore atteso E(X), quando n = 50 e \alpha = 1.
Problema 3
Si consideri il dataset bacteria della libreria MASS e lo si carichi in memoria. La variabile y indica la presenza (y) o l’assenza (n) del batterio “H influenzae” in alcuni bambini. La variabile trt indica invece il trattamento ricevuto.
(3pt) L’indice di eterogeneità di Gini è definito come G = 1 - \sum_{j=1}^kf_j^2, dove f_1,\dots,f_k sono le frequenze relative di una variabile qualitativa con modalità c_1,\dots,c_k. Si costruisca in R la funzione
Gini(x)che calcola l’indice di Gini di una variabile qualitativax. Si ottenga quindiGini(bacteria$trt).(1pt) Si costruisca dataset
bacteria2contenente le osservazioni relative alla sesta settimana di sorveglianza (week=6). Da quante osservazioni è composto?(1pt) Utilizzando il dataset
bacteria2, si costruisca una tabella di contingenza che mette in relazione le variabiliyetrt.(2pt) Utilizzando il dataset
bacteria2, si ottengano le distribuzioni di frequenza condizionate della variabiley, per ciascun valore della variabiletrt. Ci sono delle differenze tra queste distribuzioni?(2pt) Utilizzando il dataset
bacteria2, si ri-eseguano i due punti precedenti (ovvero 3. e 4.) dopo aver raggruppato i valoridrugedrug+della variabiletrtin un unico valore, chiamato ad esempiodrug_and_drug+. I risultati sono diversi da quelli ottenuti al punto precedente (4.)?