Procedure per calcolare la distribuzione di frequenze univariata o bivariata

Nell’analisi statistica, è spesso molto interessante studiare delle variabili dal punto di vista della distribuzione di frequenza. Questo rende spesso necessario (a meno di variabili con un numero fisso di valori che possono assumere) la creazione di intervalli in cui valutare la distribuzione di frequenza. Infatti, variabili continue potrebbero assumere tutte valori diversi, nonostante il dataset possa raggiungere dimensioni notevoli.

Il primo ostacolo di questa analisi è la determinazione stessa dell’ampiezza degli intervalli. La scelta di questi è infatti fondamentale, poiché se troppo ridotto, l’intervallo diventa sostanzialmente inutile, riuscendo a contenere poche osservazioni, e se troppo ampio perde di significatività, andando ad accomunare variabili con valori profondamente diversi. Esistono anche determinazioni dinamiche di intervalli, in cui l’ampiezza varia a seconda del numero di osservazioni al loro interno. Tuttavia, una scelta semplice ed ottimale, che fissa le ampiezza tutte pari tra loro e che permette di la creazione di n classi, è data dalla formula:

W = \frac{max(X) - min(X)}{n}

dove X è la variabile presa in considerazione, n rappresenta il numero delle classi e W è l’ampiezza degli intervalli.

In questo modo è possibile costruire una tabella di frequenza. Nel caso univariato, ovvero nel caso in cui il numero di variabili prese in considerazione è soltanto uno, la tabella di distribuzione di frequenza risulta essere la seguente:

ClasseFrequenza
[x_0, x_1 ]N_1
(x_1, x_2 ]N_2
(x_n-1, x_n ]N_n

Una rapida implementazione di un algoritmo per la divisione in classi, una volta stabilita l’ampiezza dell’intervallo, consiste nell’ordinare le osservazioni e nel costruire via via le classi. Ovvero, si costruisce la prima classe, andando a selezionare come estremo inferiore l’osservazione minima e come estremo superiore la stessa osservazione sommata all’ampiezza dell’intervallo. In seguito, si scorrono le osservazioni e la prima osservazione che non rientra in questo intervallo, comporterà la creazione di un secondo intervallo. Questo viene ripetuto finché non sono state divise tutte le osservazioni.

Un altro caso interessante da studiare è il caso bivariato. In questa situazione, il numero di variabili considerato è pari a due. La divisione in classi sarà quindi leggermente diversa. Gli intervalli per le due variabili vengono costruiti separatamente con la stessa metodologia del caso univariato. Questi intervalli vengono però poi utilizzati per la costruzione di una matrice di distribuzione di frequenza, ovvero per valutare come le osservazioni si distribuiscano su tutte le possibili combinazioni di classi delle variabili X e Y. Denominando con C^k_x e C^k_y rispettivamente le classi k-esime delle variabili X e Y, la matrice di frequenza (chiamata anche tabella di contingenza) risulta essere:

X\YC^1_yC^2_yC^k_yC^n_y
C^1_xN_{11} N_{12}N_{1k}N_{1n}
C^2_xN_{21}N_{22}N_{2k}N_{2n}
C^k_xN_{k1}N_{k2}N_{kk}N_{kn}
C^n_xN_{n1}N_{n2}N_{nk}N_{nn}

Lascia un commento