
Quando si applica una regressione lineare, la devianza totale (TSS, dall’inglese “total sum of square”), che rappresenta la somma degli scarti dalla media al quadrato, può essere divisa in due fattori distinti:
- il primo, chiamato anche devianza non spiegata, rappresenta la varianza dei valori residui del modello, ovvero la devianza di ciò che il modello non riesce a spiegare (ESS, dall’inglese “error sum of square”);
- il secondo, chiamato anche devianza spiegata rappresenta la devianza del modello stesso (RSS, dall’inglese “regression sum of square”).
Questa scomposizione è molto utile per capire quanto effettivamente il modello riesca a spiegare della composizione dei dati. Permette infatti di costruire un indice molto importante, l’ di Pearson, definito come il rapporto tra la devianza spiegata e la devianza totale. Questo indice varia tra 0 e 1. Se assume valore pari a 0, significa che il modello non riesce a spiegare nulla della variabilità dei dati; se invece assume valore pari a 1 significa che il modello prevede perfettamente tutti i dati osservati (i valori realmente osservati saranno quindi distribuiti esattamente sulla retta di regressione).
Si può dimostrare che vale questa scomposizione con dei semplici passaggi algebrici. Ricordando che la media dei valori osservati coincide con la media dei valori teorici, possiamo scrivere:
Il terzo termine della scomposizione si annulla, infatti:
Che coincide esattamente con le derivate parziali poste uguali a 0 nel calcolo dei coefficienti della retta di regressione.
Una particolarità dell’indice è che nella regressione lineare, coincide esattamente con il quadrato dell’indice di correlazione. Questo è facilmente dimostrabile attraverso i seguenti passaggi:
Tutto questo ragionamento può naturalmente essere applicato anche alla varianza, dividendo la devianza per n.