Indice
La classificazione di immagini digitali è la tecnica che permette di associare una particolare cella di un’immagine (dato) ad un’informazione relativa a caratteristiche della superficie terrestre (informazione). Serve per costruire carte tematiche.
Per classificare è sufficiente costruire lo scatterogramma costituito da due bande spettrali e vedere se c’è correlazione tra le due bande. Si vedrà un gruppo di celle più o meno correlate e altre altamente incorrelate. Le celle verranno poi associate a determinati insiemi (cluster) definiti mediante parametri propri degli algoritmi di classificazione.
Classificazione automatica e assistita
La classificazione automatica è utile quando non si hanno molte informazioni sull’area di indagine, quindi non si possono definire firme spettrali campione. Pertanto si procederà con la ricostruzione di insiemi omogenei in termini statistici per poi assegnare successivamente ogni cella ad una classe di riferimento. La classificazione assistita invece presuppone di considerare delle aree campione con determinate firme spettrali per poi testare l’appartenenza di ciascuna cella a tali aree campione. Quindi in quest’ultimo tipo di classificazione l’informazione estratta dal mondo reale viene estesa a tutta l’immagine, nel primo caso gli insiemi non rappresentano un’informazione estratta dall’immagine ma tali insiemi (classi spettrali) devono venire successivamente interpretati mediante tecniche in situ o di fotointerpretazione.
L’algoritmo k-means
E’ un algoritmo per la classificazione non assistita (automatica). Viene richiesto dall’utente di definire il n° di classi spettrali, il n° di iterazioni ed è possibile inserire un valore soglia per il confine del non classificato (max class stdev). L’algoritmo esegue le seguenti operazioni
Viene costruito lo scatterogramma relativo allo spazio spettrale considerato.
Vengono definiti due punti casuali chiamati centroidi.
Viene calcolata la distanza tra le celle e i centroidi.
Ogni singola cella disterà d1 dal primo centroide e d2 dal secondo, se d1 < d2 la cella viene associata a al primo centroide, viceversa al secondo.
Una volta associate tutte le celle viene calcolata la media dei due insiemi nei quali assumono la posizione dei nuovi centroidi.
Si procede con una seconda iterazione.
Nessuna cella verrà non classificata a meno che non si inserisca una certa deviazione standard che pone il limite tra il classificato e il non classificato.
L’algoritmo ISODATA
E’ il successore del k-means solo che a differenza del primo il numero di classi può variare tra un minimo e un massimo definito dall’utente e poi è possibile effettuare operazioni di splitting e di merging tra due cluster in funzione di alcuni parametri definiti dall’utente come la definizione soglie di vicinanza per il merging o valori limite di deviazione standard per un cluster allo scopo di effettuare una successiva operazione di splitting (se troppo elevata).
L’algoritmo a parallelepipedo
E’ una tecnica di classificazione assistita. Viene definito, per ogni campione, il valore massimo e minimo per ciascuna delle due bande spettrali cosicché, nello scatterogramma, si formeranno due insiemi a parallelepipedo, i quali classificheranno come appartenenti a loro le celle in esso presenti. E’ anche possibile inserire una massima deviazione standard per ogni campione per evitare il problema della non significatività. Ci può essere però una zona di sovrapposizione, e possono esserci due soluzioni: o non vengono classificate o si procede ad una nuova classificazione con una soglia statistica meno elevata.
L’algoritmo della minima distanza
E’ simile all’isodata solo che la posizione del centroide non è data a priori ma deriva dal calcolo della media dei campioni (quindi non è un processo iterativo in quanto tale centroide è fisso). E’ sempre richiesto di inserire una massima deviazione standard per definire il non classificato.
L’algoritmo della massima verosimiglianza
E’ una tecnica che calcola la media e la deviazione standard di ogni campione ipotizzando che esso abbia una distribuzione normale e quindi si può descrivere analiticamente tale funzione. La probabilità di appartenenza ad un campione è data dall’area della curva. Si immette una soglia di probabilità (un valore sull’ordinata) che determina il criterio con cui una cella appartiene a quel determinato cluster.
Accuratezza di classificazione
Un campione deve essere rappresentativo (ovvero deve avere un numero considerevole di celle, ad esempio il 5% delle celle che definiscono una certa informazione) e significativo ovvero omogeneo in termini radiometrici (deve avere una bassa deviazione standard). Una volta eseguita la classificazione l’accuratezza viene valutata con la matrice d’errore o di confusione ovvero una matrice che analizza la classificazione di tutti i pixel delle ROI definite (regioni di interesse). Ogni ROI è formata da un certo numero di celle, le quali potrebbero essere classificate come appartenenti ad un’altra classe (se non sono molto significative): difatti un valore di una cella definita dall’utente appartenente ad una certa ROI può ad esempio discostare più dal valore medio della ROI di appartenenza piuttosto che ad un’altra, e quindi verrà classificata come appartenente a quest’ultima.