
Quando si studiano due variabili è spesso interessante studiare se esiste una certa relazione che le leghi. Questo può portare a molteplici vantaggi, come ad esempio poter predire i valori di una conoscendo solo l’altra, o anche riuscire a controllare i valori di una variabile direttamente non controllabile attraverso variabili più facilmente controllabili.
La relazione più semplice è sicuramente quella lineare. Questa può essere quantificata dal coefficiente di correlazione, che può assumere valori che variano da -1 a 1 a seconda dell’intensità e del rapporto di dipendenza tra le due variabili. Va notato comunque che il coefficiente di relazione pari a 0 non implica che non esista una dipendenza tra le due variabili, ma solo che non esiste una dipendenza lineare.
Questa dipendenza lineare può essere studiata e modellata più approfonditamente attraverso una regressione lineare. Dato un campione composto da due variabili X e Y, supponendo di voler studiare il valore della Y dipendentemente dal valore della X, la regressione lineare consiste nell’individuare la retta funzione di X che minimizza le distanze tra i valori teorici delle Y con i valori reali. Ovvero, si cerca quella retta che ad ogni X associa un valore teorica della Y attraverso la formula:
e tale che la somma delle distanze da tra questi valori e le Y realmente osservate sia minimo. In formule:
Si cercano quindi i valori di e che minimizzino questa distanza. Per fare ciò, si considerano le derivate parziali e si eguagliano a 0 come segue:
Per semplicità, denotiamo e . Con dei semplici passaggi algebrici otteniamo:
Questi valori di e di sono proprio i valori che creano la retta di regressione o retta dei minimi quadrati, dato che la distanza utilizzata per il suo calcolo è, appunto, la canonica distanza euclidea. Si può facilmente dimostrare che questa retta passa sempre per il baricentro dei dati, ovvero per il punto determinato dal valor medio della X e da quello della Y. Inoltre la media dei valori teorici, ottenuti attraverso questa retta, coincide esattamente con la media dei valori osservati. Visto da un’altra prospettiva, questa informazione implica che la somma degli scarti dalla retta di regressione è pari a 0.