Relazioni di ricorrenza per la covarianza

La covarianza tra due variabili statistiche X e Y, indicata con \sigma_{X,Y} è un indice di variabilità congiunta che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza. Può essere calcolata solo su due insiemi con la stessa numerosità. è possibile costruire un indice relativo della covarianza, denominato indice di correlazione di Bravais-Pearson, in maniera tale che vari tra -1 e 1 (al fine di ottenere una miglior comprensione della dipendenza, essendo la covarianza legata all’ordine di grandezza delle osservazioni), dividendo il suo valore per il prodotto delle deviazioni standard delle due varibili. La formula dell’indice di correlazione è la seguente:

\rho_{X,Y}=\frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_j(x_j-\bar{x})^2 \sum_k(y_k-\bar{y})^2}} =\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}


Indicando con \bar{x}_n la media della variabile X e con \bar{y}_n la media della variabile Y, date n osservazioni per entrambe le variabili, la formula per calcolare la covarianza è la seguente:

\sigma_{X,Y}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x}_n)(y_i-\bar{y}_n)=\frac{1}{n}\sum_{i=1}^n x_i y_i-\left(\frac{1}{n}\sum_{i=1}^n x_i\right)\left(\frac{1}{n}\sum_{i=1}^n y_i\right)


Questa formula, come anche la media e la varianza, presenta diversi limiti in un contesto informatico. Infatti, è necessario la conoscenza preliminare del numero di osservazioni, cosa che non sempre è realizzabile. Per ovviare a questo problema si utilizza una relazione di ricorrenza, ovvero una formula ricorsiva che esprime il valore del termine n-esimo di una successione in funzione dei termini precedenti (in particolare, in questo caso, solo del termine precedente). In questo modo non è più necessaria la conoscenza preliminare del numero di dati che verranno forniti in input, ma è possibile aggiornare ricorsivamente il valore della covarianza ad ogni nuova coppia di osservazioni.

Possiamo riscrivere la somma dei prodotti delle osservazioni di due variabili X e Y, a cui sono state sottratte due costanti arbitrarie c_1 e c_2, nel seguente modo:

\sum_{i=1}^n(x_i-c_1)(y_i-c_2)= \sum_{i=1}^n [(x_i-\bar{x}_n)(y_i-\bar{y}_n) ] \cdot [(\bar{x}_n - c_1)(\bar{y}_n - c_2)] =

= SP_n - n(\bar{x}_n - c_1)(\bar{y}_n - c_2)


Dove SP_n indica la somma dei prodotti ad un dato passo n. Ponendo c_1 e c_2 pari alle medie delle variabili al passo n-1, ovvero \bar{x}_{n-1} e \bar{y}_{n-1}, possiamo riscrivere la formula come segue:

SP_n = \sum_{i=1}^n(x_i-\bar{x}_n)(y_i-\bar{y}_n) =

= \sum_{i=1}^n(x_i-\bar{x}_{n-1})(y_i-\bar{y}_{n-1}) - n(\bar{x}_n - \bar{x}_{n-1})(\bar{y} - \bar{y}_{n-1}) =

= SP_{n-1} + (x_n -\bar{x}_{n-1})(y_n - \bar{y}_{n-1}) - \frac{1}{n}(x_n - \bar{x}_{n-1})(y - \bar{y}_{n-1}) =

= SP_{n-1} + \frac{n-1}{n}(x_n - \bar{x}_{n-1})(y - \bar{y}_{n-1})


è quindi possibile aggiornare la somma dei prodotti in due diversi modi equivalenti:

1) \ \ \ SP_n = SP_{n-1} + (x_n - \bar{x}_{n})(y - \bar{y}_{n-1})

2) \ \ \ SP_n = SP_{n-1} + (x_n - \bar{x}_{n-1})(y - \bar{y}_{n})


Lascia un commento