Regressione lineare

Quando si studiano due variabili è spesso interessante studiare se esiste una certa relazione che le leghi. Questo può portare a molteplici vantaggi, come ad esempio poter predire i valori di una conoscendo solo l’altra, o anche riuscire a controllare i valori di una variabile direttamente non controllabile attraverso variabili più facilmente controllabili.

La relazione più semplice è sicuramente quella lineare. Questa può essere quantificata dal coefficiente di correlazione, che può assumere valori che variano da -1 a 1 a seconda dell’intensità e del rapporto di dipendenza tra le due variabili. Va notato comunque che il coefficiente di relazione pari a 0 non implica che non esista una dipendenza tra le due variabili, ma solo che non esiste una dipendenza lineare.

Questa dipendenza lineare può essere studiata e modellata più approfonditamente attraverso una regressione lineare. Dato un campione composto da due variabili X e Y, supponendo di voler studiare il valore della Y dipendentemente dal valore della X, la regressione lineare consiste nell’individuare la retta funzione di X che minimizza le distanze tra i valori teorici delle Y con i valori reali. Ovvero, si cerca quella retta che ad ogni X associa un valore teorica della Y attraverso la formula:

\hat{y}_{i} = \beta x_{i} + \alpha

e tale che la somma delle distanze da tra questi valori e le Y realmente osservate sia minimo. In formule:

S(\alpha, \beta) = \sum_{i = 1}^{n} (y_i - \hat{y}_{i})^2 = \sum_{i = 1}^{n} (y_i - \beta x_{i} - \alpha)^2 min_{\alpha, \beta} S(\alpha, \beta)

Si cercano quindi i valori di \alpha e \beta che minimizzino questa distanza. Per fare ciò, si considerano le derivate parziali e si eguagliano a 0 come segue:

\frac{dS}{d \beta}  = -2\sum_{i = 1}^{n} x_i (y_i - \beta x_{i} - \alpha) = 0
\frac{dS}{d \alpha}  = -2\sum_{i = 1}^{n} (y_i - \beta x_{i} - \alpha) = 0

Per semplicità, denotiamo SP = \sum_{i = 1}^{n} x_i y_i e SS = \sum_{i = 1}^{n} x_i^2. Con dei semplici passaggi algebrici otteniamo:

\beta = \frac{SP - n\bar{x} \bar{y}}{SS - n \bar{x}^2} = \frac{\sigma _{xy}}{\sigma^2_{x}}
\alpha = \bar{y} - \beta \bar{x}  = \bar{y} - \frac{\sigma _{xy}}{\sigma^2_{x}} \bar{x}

Questi valori di \alpha e di \beta sono proprio i valori che creano la retta di regressione o retta dei minimi quadrati, dato che la distanza utilizzata per il suo calcolo è, appunto, la canonica distanza euclidea. Si può facilmente dimostrare che questa retta passa sempre per il baricentro dei dati, ovvero per il punto determinato dal valor medio della X e da quello della Y. Inoltre la media dei valori teorici, ottenuti attraverso questa retta, coincide esattamente con la media dei valori osservati. Visto da un’altra prospettiva, questa informazione implica che la somma degli scarti dalla retta di regressione è pari a 0.

Lascia un commento