Processo aleatorio e Random walk

Un processo aleatorio (o processo stocastico) è un insieme ordinato di funzioni reali di un certo parametro (in genere il tempo) che gode di determinate proprietà statistiche. In generale è possibile identificare un processo stocastico come una famiglia ad un parametro di variabili casuali reali X(t) rappresentanti le trasformazioni dello stato iniziale nello stato al tempo t . In breve, un processo aleatorio è una successioni di variabili aleatorie, determinate da una stessa distribuzione di fondo, che, indicizzati da un parametro, permetto di modellare una successione di valori a partire da un valore iniziale. In ambito finanziario, permettono di modellare valori legati ai valori stessi in momenti precedenti, come l’andamento dei prezzi, le quotazioni in borsa, lo spread e così via.

Da un punto di vista astratto, qualsiasi strumento finanziario si può considerare come una traiettoria nel tempo, ovvero come un processo stocastico parametrizzato rispetto al tempo e che, in un certo istante t, assume un certo valore P(t) che può essere, ad esempio, il prezzo di quello stesso strumento al tempo t  (ovviamente, t  è una variabile aleatoria). In generale, i processi stocastici si suddividono in processi continui o processi discreti a seconda della natura di t .

In questo contesto, la random walk è un particolare tipo di processo aleatorio, che descrive un percorso dove gli spostamenti sono regolati da una legge probabilistica ben precisa. Nella passeggiata aleatoria monodimensionale, la probabilità di uno spostamento a destra è infatti associato ad una probabilità p (propria del fenomeno che si sta studiando), e analogamente la probabilità di uno spostamento a sinistra è associato ad una probabilità pari a (1-p). Ogni passo è di lunghezza uguale e indipendente agli altri. Si può subito notare che la previsione del valore della passeggiata aleatoria ad un determinato tempo  \hat{t} dipenderà esclusivamente dall’ultimo valore noto assunto dalla passeggiata aleatoria.

Spostandosi in ambito finanziario, questo processo può essere utilizzato, ad esempio, per studiare l’andamento delle quotazioni in borsa, anche se altri processi aleatori (come il moto Browniano, che è simile alla passeggiata aleatoria, me ne complica notevolmente le caratteristiche) sono più adeguati allo scopo.

Procedure per calcolare la distribuzione di frequenze univariata o bivariata

Nell’analisi statistica, è spesso molto interessante studiare delle variabili dal punto di vista della distribuzione di frequenza. Questo rende spesso necessario (a meno di variabili con un numero fisso di valori che possono assumere) la creazione di intervalli in cui valutare la distribuzione di frequenza. Infatti, variabili continue potrebbero assumere tutte valori diversi, nonostante il dataset possa raggiungere dimensioni notevoli.

Il primo ostacolo di questa analisi è la determinazione stessa dell’ampiezza degli intervalli. La scelta di questi è infatti fondamentale, poiché se troppo ridotto, l’intervallo diventa sostanzialmente inutile, riuscendo a contenere poche osservazioni, e se troppo ampio perde di significatività, andando ad accomunare variabili con valori profondamente diversi. Esistono anche determinazioni dinamiche di intervalli, in cui l’ampiezza varia a seconda del numero di osservazioni al loro interno. Tuttavia, una scelta semplice ed ottimale, che fissa le ampiezza tutte pari tra loro e che permette di la creazione di n classi, è data dalla formula:

W = \frac{max(X) - min(X)}{n}

dove X è la variabile presa in considerazione, n rappresenta il numero delle classi e W è l’ampiezza degli intervalli.

In questo modo è possibile costruire una tabella di frequenza. Nel caso univariato, ovvero nel caso in cui il numero di variabili prese in considerazione è soltanto uno, la tabella di distribuzione di frequenza risulta essere la seguente:

ClasseFrequenza
[x_0, x_1 ]N_1
(x_1, x_2 ]N_2
(x_n-1, x_n ]N_n

Una rapida implementazione di un algoritmo per la divisione in classi, una volta stabilita l’ampiezza dell’intervallo, consiste nell’ordinare le osservazioni e nel costruire via via le classi. Ovvero, si costruisce la prima classe, andando a selezionare come estremo inferiore l’osservazione minima e come estremo superiore la stessa osservazione sommata all’ampiezza dell’intervallo. In seguito, si scorrono le osservazioni e la prima osservazione che non rientra in questo intervallo, comporterà la creazione di un secondo intervallo. Questo viene ripetuto finché non sono state divise tutte le osservazioni.

Un altro caso interessante da studiare è il caso bivariato. In questa situazione, il numero di variabili considerato è pari a due. La divisione in classi sarà quindi leggermente diversa. Gli intervalli per le due variabili vengono costruiti separatamente con la stessa metodologia del caso univariato. Questi intervalli vengono però poi utilizzati per la costruzione di una matrice di distribuzione di frequenza, ovvero per valutare come le osservazioni si distribuiscano su tutte le possibili combinazioni di classi delle variabili X e Y. Denominando con C^k_x e C^k_y rispettivamente le classi k-esime delle variabili X e Y, la matrice di frequenza (chiamata anche tabella di contingenza) risulta essere:

X\YC^1_yC^2_yC^k_yC^n_y
C^1_xN_{11} N_{12}N_{1k}N_{1n}
C^2_xN_{21}N_{22}N_{2k}N_{2n}
C^k_xN_{k1}N_{k2}N_{kk}N_{kn}
C^n_xN_{n1}N_{n2}N_{nk}N_{nn}

La formula di Legendre e la sua utilità nelle applicazioni

In teoria dei numeri, l’identità di Legendre-de Polignac (o formula di Legendre), è una formula che fornisce l’esponente massimo di un numero primo p che divide il fattoriale n!. In altri termini, questa formula permette di ricavare una scomposizione, fissato un numero primo p, di un fattoriale nel seguente modo:

n! = p^\upsilon R

dove R è un intero residuo e \upsilon è il massimo esponente di p che permette tale divisione. Questa è chiamata anche valutazione p-adica di n ed è possibile attuarla per qualsiasi numero primo p. Nonostante possa sembrare una richiesta decisamente articolata, la soluzione è di per sé molto semplice. Per comodità, indicheremo con \upsilon_p(n!) la valutazione p-adica di n!, ovvero la funzione che restituisce l’esponente \upsilon massimo della divisione di n! per un numero primo p. Il suo calcolo è molto semplice, la formula generale infatti è la seguente:

\upsilon_p(n!) = \sum_{j = 1}^\infty\left\lfloor\frac{n}{p^j}\right\rfloor

dove \left\lfloor\frac{n}{p^j}\right\rfloor sarebbe la parte intera della divisione di n per p^j.

Questa formula può essere ulteriormente semplificata se si considera la rappresentazione binaria dei numeri (ovvero esattamente come sono rappresentati su un computer). Infatti, in questo caso la formula sarà la seguente:

\upsilon_p(n!) = \sum_{j = 1}^\infty\left\lfloor\frac{Numero \ di \ bit \ di \ n \ pari \ a \ 1}{p - 1}\right\rfloor

per cui il calcolo in un programma viene notevolmente semplificato.

Scomposizione della varianza nella regressione lineare

Quando si applica una regressione lineare, la devianza totale (TSS, dall’inglese “total sum of square”), che rappresenta la somma degli scarti dalla media al quadrato, può essere divisa in due fattori distinti:

  • il primo, chiamato anche devianza non spiegata, rappresenta la varianza dei valori residui del modello, ovvero la devianza di ciò che il modello non riesce a spiegare (ESS, dall’inglese “error sum of square”);
  • il secondo, chiamato anche devianza spiegata rappresenta la devianza del modello stesso (RSS, dall’inglese “regression sum of square”).

Questa scomposizione è molto utile per capire quanto effettivamente il modello riesca a spiegare della composizione dei dati. Permette infatti di costruire un indice molto importante, l’R^2 di Pearson, definito come il rapporto tra la devianza spiegata e la devianza totale. Questo indice varia tra 0 e 1. Se assume valore pari a 0, significa che il modello non riesce a spiegare nulla della variabilità dei dati; se invece assume valore pari a 1 significa che il modello prevede perfettamente tutti i dati osservati (i valori realmente osservati saranno quindi distribuiti esattamente sulla retta di regressione).

Si può dimostrare che vale questa scomposizione con dei semplici passaggi algebrici. Ricordando che la media dei valori osservati coincide con la media dei valori teorici, possiamo scrivere:

TSS = \sum_{i = 1}^{n} (y_i - \bar{y})^2 = \sum_{i = 1}^{n} (y_i - \hat{y}_i + \hat{y}_i - \bar{y})^2 = = \sum_{i = 1}^{n} (y_i - \hat{y}_i)^2 + \sum_{i = 1}^{n} (\hat{y}_i - \bar{y})^2  + 2 \sum_{i = 1}^{n} (y_i - \hat{y}_i)(\hat{y}_i - \bar{y})

Il terzo termine della scomposizione si annulla, infatti:

\hat{y}_i - \bar{y} = \beta(x_i - \bar{x}) 2 \sum_{i = 1}^{n} (y_i - \hat{y}_i)(\hat{y}_i - \bar{y}) = 2 \beta \sum_{i = 1}^{n} (y_i - \hat{y}_i)(x_i - \bar{x})

Che coincide esattamente con le derivate parziali poste uguali a 0 nel calcolo dei coefficienti della retta di regressione.

Una particolarità dell’indice R^2 è che nella regressione lineare, coincide esattamente con il quadrato dell’indice di correlazione. Questo è facilmente dimostrabile attraverso i seguenti passaggi:

R^2 = \frac{RSS}{TSS} = \frac{\sum_{i = 1}^{n} (y_i - \hat{y}_i)^2}{n\sigma ^2_y} =  \frac{\sum_{i = 1}^{n} [\beta(x_i - \hat{x}_i)]^2}{n\sigma ^2_y} = = \frac{\sigma{xy}^2}{(\sigma_{x}^2)^2} \cdot \frac{\sigma_{x}^2}{\sigma_{y}^2} = \frac{\sigma^2_{xy}}{\sigma{x}^2 \sigma{y}^2} = r^2

Tutto questo ragionamento può naturalmente essere applicato anche alla varianza, dividendo la devianza per n.

Regressione lineare

Quando si studiano due variabili è spesso interessante studiare se esiste una certa relazione che le leghi. Questo può portare a molteplici vantaggi, come ad esempio poter predire i valori di una conoscendo solo l’altra, o anche riuscire a controllare i valori di una variabile direttamente non controllabile attraverso variabili più facilmente controllabili.

La relazione più semplice è sicuramente quella lineare. Questa può essere quantificata dal coefficiente di correlazione, che può assumere valori che variano da -1 a 1 a seconda dell’intensità e del rapporto di dipendenza tra le due variabili. Va notato comunque che il coefficiente di relazione pari a 0 non implica che non esista una dipendenza tra le due variabili, ma solo che non esiste una dipendenza lineare.

Questa dipendenza lineare può essere studiata e modellata più approfonditamente attraverso una regressione lineare. Dato un campione composto da due variabili X e Y, supponendo di voler studiare il valore della Y dipendentemente dal valore della X, la regressione lineare consiste nell’individuare la retta funzione di X che minimizza le distanze tra i valori teorici delle Y con i valori reali. Ovvero, si cerca quella retta che ad ogni X associa un valore teorica della Y attraverso la formula:

\hat{y}_{i} = \beta x_{i} + \alpha

e tale che la somma delle distanze da tra questi valori e le Y realmente osservate sia minimo. In formule:

S(\alpha, \beta) = \sum_{i = 1}^{n} (y_i - \hat{y}_{i})^2 = \sum_{i = 1}^{n} (y_i - \beta x_{i} - \alpha)^2 min_{\alpha, \beta} S(\alpha, \beta)

Si cercano quindi i valori di \alpha e \beta che minimizzino questa distanza. Per fare ciò, si considerano le derivate parziali e si eguagliano a 0 come segue:

\frac{dS}{d \beta}  = -2\sum_{i = 1}^{n} x_i (y_i - \beta x_{i} - \alpha) = 0
\frac{dS}{d \alpha}  = -2\sum_{i = 1}^{n} (y_i - \beta x_{i} - \alpha) = 0

Per semplicità, denotiamo SP = \sum_{i = 1}^{n} x_i y_i e SS = \sum_{i = 1}^{n} x_i^2. Con dei semplici passaggi algebrici otteniamo:

\beta = \frac{SP - n\bar{x} \bar{y}}{SS - n \bar{x}^2} = \frac{\sigma _{xy}}{\sigma^2_{x}}
\alpha = \bar{y} - \beta \bar{x}  = \bar{y} - \frac{\sigma _{xy}}{\sigma^2_{x}} \bar{x}

Questi valori di \alpha e di \beta sono proprio i valori che creano la retta di regressione o retta dei minimi quadrati, dato che la distanza utilizzata per il suo calcolo è, appunto, la canonica distanza euclidea. Si può facilmente dimostrare che questa retta passa sempre per il baricentro dei dati, ovvero per il punto determinato dal valor medio della X e da quello della Y. Inoltre la media dei valori teorici, ottenuti attraverso questa retta, coincide esattamente con la media dei valori osservati. Visto da un’altra prospettiva, questa informazione implica che la somma degli scarti dalla retta di regressione è pari a 0.

Coefficienti binomiali

In matematica, il coefficiente binomiale {n \choose k} è un numero intero non negativo definito dalla seguente formula:

{n \choose k} = C_{n,k} = \frac{n!}{k!(n-k)!}


Questo numero è dimostrato corrispondere alle combinazioni semplici di n elementi di classe k, che equivale a dire il numero di sottoinsiemi di k elementi estratti da un insieme di n elementi (non considerando rilevante l’ordine degli insiemi).

Le combinazioni sono parte del calcolo combinatorio, una branda della matematica che studia i modi per raggruppare e/o ordinare secondo date regole gli elementi di un insieme finito di oggetti. Esistono 3 principali categorie di raggrupamento, ognuna delle quali può essere considerata con o senza ripetizioni (ovvero permettendo o meno l’estrazione di uno stesso elemento di un insieme più di una volta). Si possono distinguere infatti:

  • Permutazioni:
    • semplici (senza ripetizioni) P_n
    • con ripetizioni P_n^{k_1,k_2,...,k_r}
  • Disposizioni:
    • semplici (senza ripetizioni) D_{n,k}
    • con ripetizioni D'_{n,k}
  • Combinazioni:
    • semplici (senza ripetizioni) C_{n,k}
    • con ripetizioni C'_{n,k}

Una permutazione di un insieme di oggetti è una presentazione ordinata, cioè una sequenza, dei suoi elementi nella quale ogni oggetto viene presentato una ed una sola volta. Nel caso in cui gli n elementi dell’insieme siano tutti diversi, si parla di permutazioni semplici e si calcolano con la formula:

P_n = n\cdot(n-1)\cdot(n-2)\cdot ... \cdot 1 = n!


Se invece l’insieme contiene delle ripetizioni, occorre utilizzare la formula per le permutazioni con ripetizione, poiché alcuni insiemi risulteranno uguali tra loro. Indicando con k_1, k_2, ... ,k_r il numero di volte che si ripetono r elementi dell’insieme, la formula delle permutazioni sarà la seguente:

P_n^{k_1,k_2,...,k_r} = \frac{n!}{k_1! k_2! \ldots k_r!}


Una disposizione semplice di k elementi da un insieme di n è una collezione ordinata nella quale non si può avere la ripetizione di uno stesso oggetto e si calcola con la seguente formula:

D_{n,k} = \frac{n!}{(n-k)!}


Nel caso in cui invece fosse possibile avere le ripetizioni di uno stesso oggetto, allora bisognerà utilizzare la formula delle disposizioni con ripetizione:

D'_{n,k} = {\underbrace{n \cdot n \cdot \dots \cdot n} \atop {k\mbox{ volte}}} = n^k


Infine, le combinazioni semplici, come già detto, rappresentano il numero di sottoinsiemi non ordinati di k elementi estratti da un insieme di n elementi. La formula può essere ricavata attraverso le permutazioni e le disposizioni e, come si vedrà, coincide esattamente con il coefficiente binomiale. Infatti le combinazioni semplici possono essere viste come il numero di insiemi ordinati di k elementi che si possono ottenere da un insieme di n diviso il numero di permutazione di ogni sottoinsieme, ovvero attraverso il rapporto tra D_{n,k} e P_k:

C_{n,k} = \frac{ D_{n,k} }{ P_k } = \frac{n!}{(n-k)!} \cdot \frac{1}{k!} = \frac{n!}{(n-k)!k!} = {n \choose k}


Una delle proprietà principali del coefficiente binomiale è che permette di ricavare i coefficienti che precedono i termini ottenuti dallo sviluppo di un binomio di potenza p, permettendo di sviluppare il “Triangolo di Tartaglia”, ovvero una sorta di piramide dei coefficienti associati ad ogni esponente.

p = 0                           1     
p = 1                        1     1     
p = 2                     1     2     1     
p = 3                  1     3     3     1     
p = 4               1     4     6     4     1     
p = 5            1     5     10    10    5     1     
p = 6         1     6     15    20    15    6     1     
p = 7      1     7     21    35    35    21    7     1      

Il coefficiente binomiale presenta inoltre diverse proprietà molto utili. La prima riguarda la simmetria del coefficiente binomiale. Infatti:

{n \choose k} = {n \choose (n - k)}


Questa proprietà è vera poichè:

{n \choose k} = {{n!}\over{k!(n-k)!}} = {{n!}\over{(n-k)![n-(n-k)]!}} = {n \choose n-k}


Inoltre, dato che 0! = 1 per definizione, è vera anche le seguente proprietà:

{n \choose 0} = {n \choose n} = 1


Questa proprietà è vera poichè:

{n \choose 0} = {{n!}\over{0!(n-0)!}} = {n! \over n!} = 1

{n \choose n} = {{n!}\over{n!(n-n)!}} = {n! \over n!} = 1


Esistono anche delle proprietà che permettono il calcolo ricorsivo del coefficiente binomiale. Infatti, è possibile scomporre il coefficiente binomiale nel seguente modo:

{n+1 \choose k+1} = {n \choose k+1} + {n \choose k}


In questo modo è possibile ottenere due strutture di ricorrenza per il coefficiente binomiale, ovvero:

{n+1 \choose k+1} = \frac{n+1}{k+1} \cdot {n \choose k}

{n+1 \choose k+1} = \frac{n - k + 2}{k+1} \cdot {n+1 \choose k}


Relazioni di ricorrenza per la covarianza

La covarianza tra due variabili statistiche X e Y, indicata con \sigma_{X,Y} è un indice di variabilità congiunta che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza. Può essere calcolata solo su due insiemi con la stessa numerosità. è possibile costruire un indice relativo della covarianza, denominato indice di correlazione di Bravais-Pearson, in maniera tale che vari tra -1 e 1 (al fine di ottenere una miglior comprensione della dipendenza, essendo la covarianza legata all’ordine di grandezza delle osservazioni), dividendo il suo valore per il prodotto delle deviazioni standard delle due varibili. La formula dell’indice di correlazione è la seguente:

\rho_{X,Y}=\frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_j(x_j-\bar{x})^2 \sum_k(y_k-\bar{y})^2}} =\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}


Indicando con \bar{x}_n la media della variabile X e con \bar{y}_n la media della variabile Y, date n osservazioni per entrambe le variabili, la formula per calcolare la covarianza è la seguente:

\sigma_{X,Y}=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x}_n)(y_i-\bar{y}_n)=\frac{1}{n}\sum_{i=1}^n x_i y_i-\left(\frac{1}{n}\sum_{i=1}^n x_i\right)\left(\frac{1}{n}\sum_{i=1}^n y_i\right)


Questa formula, come anche la media e la varianza, presenta diversi limiti in un contesto informatico. Infatti, è necessario la conoscenza preliminare del numero di osservazioni, cosa che non sempre è realizzabile. Per ovviare a questo problema si utilizza una relazione di ricorrenza, ovvero una formula ricorsiva che esprime il valore del termine n-esimo di una successione in funzione dei termini precedenti (in particolare, in questo caso, solo del termine precedente). In questo modo non è più necessaria la conoscenza preliminare del numero di dati che verranno forniti in input, ma è possibile aggiornare ricorsivamente il valore della covarianza ad ogni nuova coppia di osservazioni.

Possiamo riscrivere la somma dei prodotti delle osservazioni di due variabili X e Y, a cui sono state sottratte due costanti arbitrarie c_1 e c_2, nel seguente modo:

\sum_{i=1}^n(x_i-c_1)(y_i-c_2)= \sum_{i=1}^n [(x_i-\bar{x}_n)(y_i-\bar{y}_n) ] \cdot [(\bar{x}_n - c_1)(\bar{y}_n - c_2)] =

= SP_n - n(\bar{x}_n - c_1)(\bar{y}_n - c_2)


Dove SP_n indica la somma dei prodotti ad un dato passo n. Ponendo c_1 e c_2 pari alle medie delle variabili al passo n-1, ovvero \bar{x}_{n-1} e \bar{y}_{n-1}, possiamo riscrivere la formula come segue:

SP_n = \sum_{i=1}^n(x_i-\bar{x}_n)(y_i-\bar{y}_n) =

= \sum_{i=1}^n(x_i-\bar{x}_{n-1})(y_i-\bar{y}_{n-1}) - n(\bar{x}_n - \bar{x}_{n-1})(\bar{y} - \bar{y}_{n-1}) =

= SP_{n-1} + (x_n -\bar{x}_{n-1})(y_n - \bar{y}_{n-1}) - \frac{1}{n}(x_n - \bar{x}_{n-1})(y - \bar{y}_{n-1}) =

= SP_{n-1} + \frac{n-1}{n}(x_n - \bar{x}_{n-1})(y - \bar{y}_{n-1})


è quindi possibile aggiornare la somma dei prodotti in due diversi modi equivalenti:

1) \ \ \ SP_n = SP_{n-1} + (x_n - \bar{x}_{n})(y - \bar{y}_{n-1})

2) \ \ \ SP_n = SP_{n-1} + (x_n - \bar{x}_{n-1})(y - \bar{y}_{n})


Calcolo della varianza

Come abbiamo già visto per la media, il calcolo delle statistiche di un campione può portare diversi problemi, sia perché, utilizzando le formule canoniche, è spesso necessario sapere in partenza il numero di elementi che si andrà a considerare, sia per le approssimazioni dovute alla rappresentazione con cifre finite dei numeri reali, che possono portare problemi quali la perdita di significatività e la cancellazione catastrofica.

Se prendiamo in considerazione la varianza, la formula canonica per il calcolo della varianza campionaria è la seguente:

\sigma^2 = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x}_{n})^2


Questa formula però richiede la conoscenza a priori del numero di elementi del campione, cosa che non sempre è possibile. Sono stati quindi sviluppati diversi algoritmi che permetto di superare questa limitazione ed anche quella relativa alla precisione del calcolo. In particolare, l’algoritmo di Knuth permette il calcolo online della varianza

Algoritmo di Knuth

Questo algoritmo permette appunto il calcolo della varianza in un passo singolo, elaborando ogni valore x_{i} una sola volta. Per prima cosa occorre definire l’aggiornamento della media campionaria, che avviene con la seguente formula (descritta meglio nell’articolo relativo all’algoritmo di Knuth):

\bar{x}_{n} = \bar{x}_{n-1} + \frac{1}{n}(x_{n} - \bar{x}_{n-1})


Vediamo innanzitutto come può essere decomposto lo scarto semplice dell’ultimo elemento osservato dalla media campionaria, in modo da poterlo legare al passo (n-1)esimo:

x_{n} - \bar{x}_{n} = x_{n} - \frac{1}{n}\sum_{i = 1}^{n} x_{i} = x_{n} - \frac{n-1}{n}\frac{1}{n-1}\sum_{i = 1}^{n-1} x_{i} - \frac{1}{n}x_{n} =
= \frac{n-1}{n} (x_{n} - \bar{x}_{n})


A questo punto sfruttiamo una delle proprietà della media campionaria. Essa infatti minimizza la somma delle differenze al quadrato , ovvero:

argmin_{c \in C} \sum_{i = 1}^{n} (x_{i} - c)^2 = \bar{x}_{n}


Inoltre è vera l’equazione:

\sum_{i = 1}^{n} (x_{i} - c)^2 = \sum_{i = 1}^{n} (x_{i} - \bar{x}_{n})^2 - n(\bar{x}_{n} - \bar{x}_{n-1})^2


Considerando ora la devianza delle n osservazioni, e chiamandola SS_{n} per semplicità, è vera la seguente relazione:

SS_{n} = \sum_{i = 1}^{n} (x_{i} - \bar{x}_{n-1})^2 - n(\bar{x}_{n} - \bar{x}_{n-1})^2


Sostituendo ad \bar{x}_{n} la media aggiornata utilizzando la prima formula, e ad il primo termine SS_{n-1} è possibile riscrivere la formula della devianza con una struttura iterativa che utilizza, per il calcolo della devianza all’elemento nesimo, la devianza all’elemento (n-1)esimo. Per ricavare la varianza non servirà altro che dividere il risultato per n. La formula diventa quindi la seguente:

SS_{n} = SS_{n-1} + (x_{n} - \bar{x}_{n-1})^2  - n(\bar{x}_{n-1} + \frac{1}{n}(x_{n} - \bar{x}_{n-1}) - \bar{x}_{n-1})^2 =
= SS_{n-1} + \frac{n-1}{n} (x_{n} - \bar{x}_{n-1})^2


Infine, utilizzando la formula che lega lo scarto semplice dell’ultimo elemento osservato dalla media campionari al passo (n-1)esimo, possiamo scrivere:

SS_{n} = SS_{n-1} + (x_{n} - \bar{x}_{n})(x_{n} - \bar{x}_{n-1})


Algoritmo di Knuth

Uno dei principali problemi che si riscontra nel calcolo degli indici da dati online, è il fatto che non si ha una conoscenza preliminare del numero di dati che verranno utilizzati. Un altro importante errore che potrebbe comportare un metodo “classico” è la Catastrophic Cancellation, ovvero la cancellazione di cifre significative. Questo comporta che per molti indici, fondamentali nelle analisi preliminari delle serie storiche (molto utilizzate nelle analisi finanziarie), quali ad esempio media e varianza, non è possibile utilizzare le classiche formule. Prendiamo in considerazione la media. La formula classica per calcolarla, infatti, richiede una conoscenza preliminare del numero di dati che si andrà ad analizzare:

\bar{x}_{n}=\frac{1}{n} \sum^{n}_{i = 1} x_{i}

In questi casi conviene usare degli algoritmi online. Con algoritmo online si intende un algoritmo, per la risoluzione di un problema, che deve fornire dei risultati pur non avendo a disposizione, inizialmente, alcuni dei dati in ingresso. L’algoritmo online più utilizzato è quello proposto dall’informatico statunitense Donald Knuth che, con semplici passaggi algebri, fornisce una differente fomulazione per il calcolo della media:

\bar{x}_{n} = \frac{1}{n} \sum^{n}_{i = 1} x_{i} = \frac{1}{n} \sum^{n-1}_{i = 1} x_{i} + \frac{x_{n}}{n} = \frac{n-1}{n} \cdot \frac{1}{n-1} \sum^{n-1}_{i = 1} x_{i} + \frac{x_{n}}{n} =
= \bar{x}_{n-1} + \frac{1}{n}(x_{n} - \bar{x}_{n-1})

Come è possibile notare, questo algoritmo permette il calcolo della media senza avere conoscenze preliminari sul numero di elementi da analizzare, ma andando ricorsivamente ad aggiornare la media ad ogni passaggio.

La sua implementazione in un linguaggio informatico è molto semplice. Di sotto è riportata la sua scrittura in VB.net.

        'Scelgo dei voti casuali, ma posso immettere quanti e quali voti voglio
        Dim Voti As Integer() = {1, 5, 9, 25}
        Dim Lista As New List(Of Integer)(Voti)
        Dim mean As Double = 0
        Dim count As Integer = 0

        For Each Voto As Integer In Lista
            count += 1
            mean = ((count - 1) * mean + Voto) / count
        Next
     

I principali strumenti finanziari

Con strumento finanziario si intende una particolare categoria di prodotti finanziari considerati mezzi di investimento di natura finanziaria.

La definizione di strumenti finanziari si fonda si fonda essenzialmente sul concetto di relazione di investimento. Rappresentano beni economici non in senso materiale, né in senso immateriale, ma come rapporti bilaterali costruiti attorno alla distribuzione di risorse finanziarie tra le due parti.

Gli strumenti finanziari fanno parte di una definizione gerarchica a tre categorie. La prima e più esterna è la categoria dei prodotti finanziari: questa comprende gli strumenti finanziari e ogni altra forma di investimento di natura finanziaria. La categoria degli strumenti finanziari comprende a sua volta:

  • valori mobiliari;
  • strumenti del mercato monetario;
  • quote di un organismo di investimento collettivo del risparmio (OICR) o di fondi di investimento come gli exchange-traded fund (ETF);
  • contratti su strumenti derivati.

I valori mobiliari sono strumenti di investimento finanziario, la cui principale funzione è quella di fornire le risorse necessarie agli operatori economici per investire, offrendo agli investitori una forma di impiego del risparmio, normalmente con una durata predeterminata e con un rendimento fisso o variabile a seconda delle categoria di appartenenza.

Esempi di valori mobiliari sono: le azioni societarie (in inglese stock), ovvero quote di proprietà di una società per azioni; le obbligazioni, ovvero titoli di debito emessi da società o enti pubblici che attribuiscono al possessore, alla scadenza, il diritto al rimborso del capitale prestato all’emittente, più un interesse; i titoli di Stato.

Alcuni esempi di strumenti del mercato monetario sono: i buoni del tesoro; i certificati di deposito e le carte commerciali.