R per l’analisi statistica multivariata

Esame 24 Febbraio 2021

Autore/Autrice
Affiliazione

Tommaso Rigon

Università degli Studi di Milano-Bicocca

Problema 1

I numeri di Stirling del secondo tipo S(n,k) rappresentano il numero di possibili partizioni di un insieme di n elementi formate da k termini. È possibile dimostrare che

S(n, k) = \frac{1}{k!}\sum_{j=0}^k(-1)^{k-j}\binom{k}{j}j^n, per qualsiasi valore di k =1,\dots,n. I numeri di Bell B(n) rappresentano invece il numero di possibili partizioni di un insieme di n elementi, independentemente dal numero di termini, ovvero

B(n) = \sum_{k=1}^n S(n, k).

  1. (6pt) Si scrivano in R le funzioni stirling2(n, k) e Bell(n) che calcolano, rispettivamente, i coefficienti S(n,k) e B(n).

  2. (1pt) Utilizzando le funzioni del punto precedente, si dica in quanti modi è possibile dividere un insieme di 10 elementi utilizzando 5 gruppi.

  3. (1pt) Utilizzando le funzioni dei punti precedenti, si dica in quanti modi è possibile partizionare un insieme di 10 elementi.

Problema 2

Il numero armonico generalizzato è definito come

H(n,\alpha) = 1 + \frac{1}{2^\alpha} + \cdots + \frac{1}{n^\alpha} = \sum_{k=1}^n\frac{1}{k^\alpha}, \qquad \alpha > 0.

Inoltre, una variabile aleatoria discreta X con supporto \{1,\dots, n\} segue una distribuzione di Zipf se

P(X = k) = \frac{k^{-\alpha}}{H(n, \alpha)}, \qquad k=1,\dots,n, ed è pari a 0 altrimenti.

  1. (2pt) Si scriva in R la funzione H(n, alpha) che calcola il numero armonico generalizzato. Quanto vale H(10, 1)?

  2. (2pt) Si scriva in R la funzione di probabilità dzipf(k, n, alpha) di una legge Zipf di parametri n ed \alpha e la si calcoli nei valori dzipf(5, 10, 2).

  3. (2pt) Per n = 50 e \alpha = 1, si rappresenti graficamente la legge di probabilità di una distribuzione Zipf tramite un diagramma a bastoncini.

  4. (2pt) Si supponga che X segua una Zipf di parametri n = 100 e \alpha = 2. Si calcoli la probabilità P(X \ge 10).

  5. (3pt) Si scriva in R la funzione rzipf(R, n, alpha) che simula R valori casuali da una distribuzione Zipf. Suggerimento: si faccia uso della funzione sample.

  6. (2pt) Sfruttando la funzione rzipf, si ottenga un’approssimazione del valore atteso E(X), quando n = 50 e \alpha = 1.

Problema 3

Si consideri il dataset bacteria della libreria MASS e lo si carichi in memoria. La variabile y indica la presenza (y) o l’assenza (n) del batterio “H influenzae” in alcuni bambini. La variabile trt indica invece il trattamento ricevuto.

  1. (3pt) L’indice di eterogeneità di Gini è definito come G = 1 - \sum_{j=1}^kf_j^2, dove f_1,\dots,f_k sono le frequenze relative di una variabile qualitativa con modalità c_1,\dots,c_k. Si costruisca in R la funzione Gini(x) che calcola l’indice di Gini di una variabile qualitativa x. Si ottenga quindi Gini(bacteria$trt).

  2. (1pt) Si costruisca dataset bacteria2 contenente le osservazioni relative alla sesta settimana di sorveglianza (week = 6). Da quante osservazioni è composto?

  3. (1pt) Utilizzando il dataset bacteria2, si costruisca una tabella di contingenza che mette in relazione le variabili y e trt.

  4. (2pt) Utilizzando il dataset bacteria2, si ottengano le distribuzioni di frequenza condizionate della variabile y, per ciascun valore della variabile trt. Ci sono delle differenze tra queste distribuzioni?

  5. (2pt) Utilizzando il dataset bacteria2, si ri-eseguano i due punti precedenti (ovvero 3. e 4.) dopo aver raggruppato i valori drug e drug+ della variabile trt in un unico valore, chiamato ad esempio drug_and_drug+. I risultati sono diversi da quelli ottenuti al punto precedente (4.)?