Statistica: concetti di base | Ripasso di Scienze

La statistica, com’è noto, si occupa di studiare fenomeni che presentano un’incertezza nel loro esito, per cui sono necessarie ripetute osservazioni per analizzare i loro comportamenti. Dai dati raccolti si possono poi ricavare una serie di valori che danno un’idea delle probabilità che un determinato esito avvenga. Una presentazione completa della statistica richiederebbe una sezione apposita: qui ci limiteremo a esporre brevemente i concetti più importanti, indispensabili per poi approfondire altrove la materia.

La statistica si divide in due rami principali: la statistica descrittiva, che raccoglie i dati di un certo fenomeno per descriverne le caratteristiche, e la statistica inferenziale, che usa i dati raccolti per prevedere un determinato esito con una certa percentuale di errore. Vedremo in questa lezione gli indici principali usati in statistica descrittiva.

Media

La media è il valore più noto e usato tra quelli statistici. Tuttavia non esiste un solo tipo di media, ma ve ne sono diversi, adatti a differenti circostanze.

La più usata, nonché la più semplice da calcolare, è la media aritmetica, che consiste semplicemente nella somma di tutti i valori raccolti per un certo fenomeno (ad esempio, l’età degli individui in una popolazione o il loro peso) divisa per il numero di osservazioni. Se si vuole scrivere questo in termini più rigorosi, definiremo la media aritmetica in questo modo:

\(M_{a} = \frac{1}{n} \sum\limits_{i=1}^n x_i\)

La media geometrica è invece la radice n-esima del prodotto di tutti i valori raccolti, dove n è il numero dei valori in nostro possesso. Ad esempio, se abbiamo 10 osservazioni, moltiplicheremo tutti i loro valori e poi faremo la radice decima del totale. In termini rigorosi, sciveremo:

\(M_{g} = \sqrt[n]{\prod\limits_{i=1}^n x_i}\)

Entrambi i tipi di media possono poi essere ponderati (o pesati): questo significa che non si dà la stessa importanza a ogni valore, ma ciascuno ha un suo secondo numero che ne descrive il peso sul totale (e quindi la sua influenza sulla media). Ad esempio, un professore, nel fare la media dei voti dei propri alunni, potrebbe voler dare peso doppio a un compito scritto rispetto a una breve interrogazione dal posto, oppure nel considerare l’età media dei vincitori delle Olimpiadi, si vorrà dare un peso diverso a ciascun atleta in base a quante medaglie ha vinto.

Per calcolare la media aritmetica ponderata si deve moltiplicare ogni valore per il peso che si è scelto di dargli, quindi sommare tutti i prodotti e dividerli per la somma dei pesi. Ad esempio, con una breve serie di quattro valori: 10 (con peso 1), 5 (con peso 3), 9 (con peso 2) e 14 (con peso 0,5), il calcolo da eseguire dovrà essere:

\(\frac{10 * 1 + 5 * 3 + 9 * 2 + 14 * 0,5}{1 + 3 + 2 + 0,5} \approx 7,69\).

Se vogliamo scrivere questo in termini generici e formalmente corretti, chiamando \(f\) il peso di un elemento, avremo:

\(M_{a,pond} = \frac{\sum\limits_{i=1}^n x_i f_i}{\sum\limits_{i=1}^n f_i} \)

Con un ragionamento simile possiamo capire come funziona la media geometrica ponderata: i valori, prima di essere moltiplicati fra loro, verranno elevati al valore ponderale, e il grado della radice sarà la somma di tutti i pesi. L’esempio precedente diventerà dunque:

\(\sqrt[1 + 3 + 2 + 0,5]{10^1 * 5^3 * 9^2 * 14^{0,5}} = \sqrt[6,5]{378843} \approx 7,21\)

Di nuovo, la formula generale si scrive come:

\(M_{g,pond} = \sqrt[\sum\limits_{i=1}^n f_i]{\prod\limits_{i=1}^n {x_i}^{f_i}}\)

Mediana

La mediana è determinabile per ogni insieme di valori che possano avere un certo ordinamento, ad esempio l’altezza o il peso di un gruppo di persone, oppure anche valori qualitativi, non espressi da numeri, che però possano essere ordinati in modo oggettivo: per esempio, i voti espressi con termini letterali (“insufficiente”, “sufficiente”, “buono” ecc.).

In questi casi, si definisce mediana il valore posto esattamente al centro dell’intervallo ordinato. Se vi sono 7 valori, ad esempio, la mediana sarà il quarto valore, poiché ne lascia 3 sia da un lato che dall’altro. In caso di un numero pari di elementi, si prendono i due elementi centrali e se ne fa la media aritmetica. Ad esempio, dati i valori ordinati \({1,4; 1,7; 1,8; 2,0; 2,2; 2,32}\), la mediana sarà data da \(\frac{1,8 + 2,0}{2} = 1,9\)

Moda

La moda è il valore più rappresentato in una serie di dati, cioè quello che appare più frequentemente. Spesso, nel caso di valori continui (che possono cioè assumere qualsiasi valore all’interno di un intervallo, per esempio l’altezza o il peso), invece che un valore unico si sceglie una classe di valori rappresentata da un certo intervallo. Ad esempio, se parliamo di altezze, possiamo creare una classe ogni 5 cm, per cui chi fosse alto 1,71, 1,73 e 1,74 rientrerebbe nella stessa classe \([1,70 – 1,74]\).

Deviazione standard (o scarto quadratico medio)

La deviazione standard, detta anche scarto quadratico medio, è un indice utilizzato per dare un’idea di quanto i valori raccolti si discostino da un determinato indice descrittivo, di solito la media. In altre parole, più è grande la deviazione standard, più i dati raccolti assumono valori differenti rispetto al valore medio.

È un indice meno intuitivo di quelli di cui si è parlato precedentemente, ma molto importante. Infatti, è fondamentale per fare previsioni su quanto rispondente alla realtà sia un determinato valore (come detto, di solito la media), e per questo non è usato solo in statistica descrittiva, ma anche in statistica inferenziale. La deviazione standard si indica con la lettera greca \(\sigma\) (sigma).

Per calcolarla necessitiamo della media aritmetica e dei valori presenti nel nostro insieme. La deviazione standard viene quindi calcolata con:

\(\sigma_X = \sqrt{\frac{\sum_{i=1}^{N} (x_i-\bar{x})^2}{N}}\),

con \(\bar{x}\) la media aritmetica della serie di dati, \(x_i\) il valore i-esimo della serie e \(N\) il numero totale di elementi.

La deviazione standard, per essere confrontata adeguatamente con altre serie di dati, deve essere resa in qualche modo relativa, e in una forma tale che sia facilmente convertibile in percentuale. Si ha così la deviazione standard relativa \(\sigma^*_X\), o coefficiente di variazione, dato dal rapporto tra la deviazione standard e il valore assoluto della media aritmetica:

\(\sigma^*_X=\frac{\sigma_X}{|\bar{x}|}\).

La deviazione standard, calcolata in modo leggermente diverso, ha anche un’importanza fondamentale nella statistica inferenziale, ma questo va oltre gli scopi di questa lezione sulla statistica descrittiva.

Varianza

La varianza è un indice non molto diverso dalla deviazione standard (tanto che ne è il suo valore elevato al quadrato), e fornisce anch’essa un’idea di quanto le variabili in esame di discostino dal loro valore medio. La varianza è importante soprattutto nella teoria della probabilità e in statistica inferenziale. Rimanendo nell’ambito che ci siamo prefissati di trattare, ci basti dire che si indica con \(\sigma^2_X\) e che è in rapporto diretto con la deviazione standard secondo la relazione:

\(\sqrt{\sigma^2_X}=\sigma_X\)