Relazioni di ricorrenza per la covarianza

La covarianza tra due variabili statistiche X e Y, indicata con è un indice di variabilità congiunta che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza. Può essere calcolata solo su due insiemi con la stessa numerosità. è possibile costruire un indice relativo della covarianza, denominato indice di correlazione di Bravais-Pearson, in maniera tale che vari tra -1 e 1 (al fine di ottenere una miglior comprensione della dipendenza, essendo la covarianza legata all’ordine di grandezza delle osservazioni), dividendo il suo valore per il prodotto delle deviazioni standard delle due varibili. La formula dell’indice di correlazione è la seguente:

$\rho_{X,Y}=\frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_j(x_j-\bar{x})^2 \sum_k(y_k-\bar{y})^2}} =\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}$

Indicando con la media della variabile X e con la media della variabile Y, date n osservazioni per entrambe le variabili, la formula per calcolare la covarianza è la seguente:

$\sigma_{X,Y}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x}_n)(y_i-\bar{y}_n)=\frac{1}{n}\sum_{i=1}^n x_i y_i-\left(\frac{1}{n}\sum_{i=1}^n x_i\right)\left(\frac{1}{n}\sum_{i=1}^n y_i\right)$

Questa formula, come anche la media e la varianza, presenta diversi limiti in un contesto informatico. Infatti, è necessario la conoscenza preliminare del numero di osservazioni, cosa che non sempre è realizzabile. Per ovviare a questo problema si utilizza una relazione di ricorrenza, ovvero una formula ricorsiva che esprime il valore del termine n-esimo di una successione in funzione dei termini precedenti (in particolare, in questo caso, solo del termine precedente). In questo modo non è più necessaria la conoscenza preliminare del numero di dati che verranno forniti in input, ma è possibile aggiornare ricorsivamente il valore della covarianza ad ogni nuova coppia di osservazioni.

Possiamo riscrivere la somma dei prodotti delle osservazioni di due variabili X e Y, a cui sono state sottratte due costanti arbitrarie e , nel seguente modo:

$\sum_{i=1}^n(x_i-c_1)(y_i-c_2)= \sum_{i=1}^n [(x_i-\bar{x}_n)(y_i-\bar{y}_n) ] \cdot [(\bar{x}_n - c_1)(\bar{y}_n - c_2)] =$

$= SP_n - n(\bar{x}_n - c_1)(\bar{y}_n - c_2)$

Dove indica la somma dei prodotti ad un dato passo n. Ponendo e pari alle medie delle variabili al passo n-1, ovvero e , possiamo riscrivere la formula come segue:

$SP_n = \sum_{i=1}^n(x_i-\bar{x}_n)(y_i-\bar{y}_n) =$

$= \sum_{i=1}^n(x_i-\bar{x}_{n-1})(y_i-\bar{y}_{n-1}) - n(\bar{x}_n - \bar{x}_{n-1})(\bar{y} - \bar{y}_{n-1}) =$

$= SP_{n-1} + (x_n -\bar{x}_{n-1})(y_n - \bar{y}_{n-1}) - \frac{1}{n}(x_n - \bar{x}_{n-1})(y - \bar{y}_{n-1}) =$

$= SP_{n-1} + \frac{n-1}{n}(x_n - \bar{x}_{n-1})(y - \bar{y}_{n-1})$

è quindi possibile aggiornare la somma dei prodotti in due diversi modi equivalenti:

$1) \ \ \ SP_n = SP_{n-1} + (x_n - \bar{x}_{n})(y - \bar{y}_{n-1})$

$2) \ \ \ SP_n = SP_{n-1} + (x_n - \bar{x}_{n-1})(y - \bar{y}_{n})$

Shoot for the Stats

Relazioni di ricorrenza per la covarianza

Lascia un commento Cancella risposta

Condividi:

Correlati

Lascia un commento Cancella risposta