Satellitenbildern mit der kNN-Methode am Beispiel Tirol

This is a “supervised classification” procedure, which does not assume any particular statistical distribution of land cover category features to be distinguished. Each pixel to be classified is assigned to the category that occurs most frequently among the k most similar pixels of the reference dataset.

Motivation

Die Fernaufklärung hatte ihren Ursprung in der militärischen Aufklärung, bei der feindliche Bewegungen von einem hohen Aussichtspunkt wie einem Berg oder einem Wachturm aus ausspioniert wurden. Mit der Entwicklung von Ballons und Flugzeugen sowie der Fotografie veränderte sich die Hauptbeobachtungsrichtung von der Horizontal- und Schrägansicht zur Draufsicht.

Ziel

Die Analyse von Bildern und Bildzeitreihen großer Gebiete zur Erstellung von Landbedeckungskarten ist ein häufiges Thema in der Fernerkundung. Diese Arbeit verwendet eine dieser Methoden, den Klassifikationsalgorithmus „kNN“ (k next neighbors), der in der Statistik in einer Reihe von Anwendungsbereichen eingesetzt wird (mehr in Kapitel 3.2.).

Fernerkundung in Österreich

Corine Landcover

Wegweiser durch die Diplomarbeit

Kapitel 6, Diskussion und Ausblick, enthält Schlussfolgerungen und Erkenntnisse, die im Laufe dieser Arbeit gewonnen wurden. Zur Beurteilung der Qualität der Klassifizierung wurde eine weitere Referenzprobe herangezogen, die vor Ort durch Messung der aktuellen Landbedeckungsklasse und mit GPS-Lokalisierung der Probenpunkte ermittelt wurde.

Landsat

Diese umfassen das Gebiet von Tirol und Osttirol und bilden die Grundlage für die Klassifizierung.

Digitales Höhenmodell (DHM)

Orthofotos

Es konnte mit einem Maßstab bis 1:5000 gearbeitet werden, was in den meisten Fällen eine hohe Bestimmungsgenauigkeit ermöglichte. Dabei handelt es sich um eine rein theoretische Abfolge der Vegetation in Höhenzonen, und in der Praxis ist es oft schwierig, diese Informationen zuverlässig zu ermitteln.

Abbildung 02 und 03, Zwei Beispiele für die Detailerkennbarkeit der online Daten (http://tiris.tirol.gv.at, 2007-11-12)

ÖK50

Diagramm 03, Korrelation zwischen der Anzahl der Pixel pro Klassen- und Herstellergenauigkeit in den Datensätzen ohne Flächengrößenparameter (ALL1) und mit Flächengrößenparameter (ALL) mit a. Diagramm 04, Verhältnis zwischen der Anzahl der Pixel pro Klassen- und Herstellergenauigkeit in den Datensätzen „Classenmax160“ und „Classenmax600“ (Kapitel 4.6.4.) mit einem „k“ gleich 5.

Waldvegetationskartierung nach Schiechtl / Stern

Geländebegehung

Zur notwendigen Ausrüstung gehörten neben entsprechender Kleidung und einem Auto eine Kamera zur Dokumentation, ein GPS-Gerät zur Ermittlung der Punktkoordinaten, Schreibmaterial, Karten und eine Liste der zu ermittelnden Klassen.

Klassifikationsmethoden im Allgemeinen

Beispielsweise stellen Klassen mit abweichenden Eigenschaften für nichtparametrische Klassifizierungsmethoden weniger ein Problem dar als für parametrische Klassifizierungsmethoden.

Klassifikation mit der „kNN“-Methode

Erstellung von Referenzdaten

Rastererstellung

Legt man ein regelmäßiges Gitter aus Gitterpunkten über die Bildfläche und interpretiert die Landbedeckung an diesen Punkten, so entsprechen die Anteile der Klassen in diesem Gitter den Flächenverhältnissen der Klassen in der Realität. Gleiches gilt für die Eigenschaften einer Klasse: Die Klassen im regelmäßigen Raster haben die gleichen Proportionen wie die Klassen in der Natur.

Interpretation der Rasterpunkte

Kreuzvalidierung

Die Herstellergenauigkeit einer Klasse beschreibt den Anteil korrekt klassifizierter Pixel an der Gesamtzahl der Pixel, die dieser Klasse bei der Interpretation zugewiesen wurden. Die Benutzergenauigkeit einer Klasse beschreibt den Anteil korrekt klassifizierter Pixel an der Gesamtzahl der Pixel, die dieser Klasse in der kNN-Klassifizierung zugeordnet sind.

Merkmale

Einsetzungsmöglichkeiten von Merkmalen…

Gewichtung von Merkmalen…

Verwendete Software

Vorbereitende Schritte

Klassen

Interpretationsschlüssel

Interpretation

Interpretationsschwierigkeiten

„k“ ist der Wert, der zur Bestimmung der Anzahl der nächsten Nachbarn in der Klassifizierung verwendet wird. In der Natur können Klassen spektrale und topografische Merkmale aufweisen, die mit dem Referenzdatensatz schwer zu beurteilen sind. Wie in den Histogrammen (Anhang I.) zu sehen ist, ist fast jede Klasse in einigen Bändern schmaler und in anderen stärker verteilt.

Die Verteilung der topografischen Merkmale von Höhe und Neigung ist im Vergleich zu den spektralen Merkmalen mäßig breit. Ein Beispiel für eine breite Höhenverteilung ist die Klasse Wasser (20) oder Fels, Kies (11). In den Diagrammen 03 und 04 erkennt man anhand der Genauigkeit des Produzenten, dass die Interaktion in den Klassen stark von der Pixelverteilung im Datensatz abhängt.

Im nächsten Abschnitt der Fehlermatrix (Tabelle 05) und in den Histogrammen (Anhang I.) wird deutlich, dass sich diese Klassen aufgrund der starken Überlappung der spektralen und topografischen Eigenschaften überschneiden. Ein weiterer Grund für die schlechte Produzentengenauigkeit in den Waldklassen mit geringer Dichte (3x2) und sehr geringer Dichte (3x3) könnte darin liegen, dass diese Klassen mit ihren Mischungsverhältnissen per Definition über ein sehr breites Spektrum an Merkmalen verfügen, was eine gute Charakterisierung mit Referenzpixeln erschwert. In fast allen Klassen, insbesondere aber in Klassen mit geringer Streuung in topografischen Kanälen, ist durch die Hinzufügung topografischer Informationen eine deutliche Steigerung der Herstellergenauigkeit zu beobachten.

Sie können zur Charakterisierung von Klassen, für Klassenüberschneidungen, zur Auswahl von Gewichten und zur Begrenzung des Verbreitungsbereichs einer Klasse in den Kanälen verwendet werden.

Qualitätsprüfung der Referenzpixel, die Kreuzvalidierung

Optimierung

Programminterne „kNN“-Parameter

Die Einstellungen für das „k“
Gewichtung

Bei Klassen mit kleiner Pixelgröße nimmt die Wahrscheinlichkeit, ein Pixel dieser Klasse zuzuordnen, mit zunehmendem „k“-Wert ab. Andererseits wird die Methode mit zunehmendem „k“-Wert robuster, wodurch der Einfluss falscher Referenzdaten verringert wird. Das folgende Diagramm 01 zeigt eine Auswahl verschiedener Klassen und deren Herstellergenauigkeit (Kapitel 3.4.) in Bezug auf den „k“-Wert.

Experimente im Rahmen dieser Arbeit zeigten, dass die Gewichtung der Spektralkanäle nicht zu signifikanten Verbesserungen der Gesamtgenauigkeit führt. Da die charakteristischen Eigenschaften der Klassen in unterschiedlichen Bereichen des elektromagnetischen Spektrums liegen, ist es nicht möglich, eine Gewichtung zu implementieren, die für alle Klassen geeignet wäre. Da es in dieser Arbeit keine derartigen Fragen gab, wurden die Gewichtungsoptionen nicht weiter untersucht.

Arealgröße

Dabei entstanden die Datensätze „Klassmax160“ (mit bis zu 160 Referenzpixeln pro Klasse) und „Klassmax600“ (mit knapp 600 Referenzpixeln pro Klasse). Stattdessen werden alle Pixel, die nicht zum Referenzdatensatz gehören, mit diesem verglichen und je nach Übereinstimmung der Klasse zugeordnet, die in den „k“ ähnlichsten Pixeln am häufigsten vertreten ist. In den sichtbaren Lichtbändern wäre die Streuung in all diesen Fällen ähnlich, aber im nahen und mittleren Infrarot (TM 4, 5 und 7) würden trockenes Grasland, feuchtes Grasland und stark sumpfiges Grasland mehr oder weniger ausgeprägte dreiteilige Verteilungen aufweisen.

Hinzufügen und Korrigieren von Referenzdaten

Anzahl der Referenzpunkte pro Klasse

Zusammenlegung von Klassen

Ost-Szene

Analyse

Eigenschaften von Klassen in der Realität

Klassen mit einer engen spektralen oder topografischen Streuung kommen in der Natur in einigen verschiedenen Formen vor. Die Bänder TM 1, 2 und 3 zeigen eine kleine Streuung, Band 4 eine große Streuung und die Bänder 5 und 7 wiederum eine sehr kleine Streuung. Im Gegensatz dazu weist die Gewässerklasse (20) aufgrund der Umströmung von Hindernissen und der Anwesenheit von Schwebstoffen bei einem Fluss eine andere spektrale Charakteristik auf als bei einem See.

Aus praktischer Sicht ist es meist schwierig, die Klassen so zu wählen, dass sie dieser Annahme wirklich gerecht werden. Die meisten Klassen weisen mehr oder weniger ausgeprägte Mehrpeakverteilungen und Abweichungen von einer Normalverteilung auf.

Eigenschaften der Klassen im Referenzdatensatz

In diesem Fall werden die Bereiche der spektralen bzw. topografischen Verteilung der Klasse nicht oder nur unzureichend abgedeckt. Beispielsweise kann es vorkommen, dass Referenzpixel einer Klasse trotz ihres möglichen Vorkommens in der Realität in einem bestimmten Höhenbereich nicht verfügbar sind. Das Problem bei letzterer Option ist die subjektive Wahl der Referenzpixel und die Schwierigkeit, genau die Pixel zu finden, die die Lücken im Referenzdatensatz füllen sollen.

Ein weiteres Problem entsteht bei der Verwendung topografischer Informationen als kNN-Merkmal (Abschnitt 3.5.1.), da jedes mögliche spektrale Merkmal einer Klasse in jedem für die Klasse prinzipiell möglichen topografischen Zustand vorhanden sein muss. Das bedeutet, dass jedes mögliche spektrale Merkmal einer Klasse in jeder Höhe, bei jeder Neigung und bei jeder Beleuchtung im Referenzdatensatz vorhanden sein muss. Dieses Problem kann durch eine möglichst schwache Gewichtung der topografischen Informationen gemildert werden, sodass fehlende topografische Pixelwerte im Referenzdatensatz weniger Auswirkungen auf die Berechnung der euklidischen Distanz haben.

Analyse der Referenzdaten

Um den Einfluss der Klassen aufeinander zu untersuchen, wurden in Abbildung 04 die Datensätze „Classmax160“ und „Classmax600“ verglichen. In diesem Datensatz kann davon ausgegangen werden, dass die Wettbewerbswirkung der Klassen relativ homogen ist. Im Datensatz „Klassenmax600“ gibt es zwar unterschiedliche Klassengrößen, allerdings in abgeschwächter Form im Vergleich zu den Datensätzen „ALL“ und „ALL1“ (siehe Kapitel 4.6.2 und 4.6.4.).

Dass Unterschiede in der Herstellergenauigkeit unter anderem auf Mängel im Referenzdatensatz (Kapitel 6.1.1 und 6.1.2.) zurückzuführen sind, lässt sich an den Klassen erkennen, die aufgrund unterschiedlicher Klassengrößen große Veränderungen in der Produzentengenauigkeit erfahren haben. Darüber hinaus können wir sehen, dass die Anzahl der Pixel pro Klasse nicht immer direkt mit der Genauigkeit des Herstellers zusammenhängt. Klassen wie hochalpines Polstergras (63), alpiner Niederstrauch (36) und Almwiese (64) verfügen theoretisch mit 135, 31 bzw. 74 Referenzpixeln über eine ausreichende Anzahl an Pixeln im „all1“-Datensatz, mit Ausnahme der Klasse 36.

Zusammenlegung von Klassen

Zusammenfassend lässt sich festhalten, dass die Genauigkeit des Herstellers nicht nur von den spektralen und topografischen Eigenschaften der Klasse, sondern auch vom Konkurrenzdruck von Klassen mit ähnlichen Eigenschaften beeinflusst wird. Fels, Kies Schnee Gewässer Nadelwald Mischwald Laubwald Latschenkiefer Grünerle Felder Grasland, Heuwiesen Hochalpines Weichgras Almwiese Sumpf Geschlossenes Gebiet Wolke Schatten. Fels, Kies, Schnee, Gewässer, Nadelwald, dichter Mischwald, dichter Laubwald, dichter Latschenkiefer, grünes Erlenfeld, Grasland, Telagena-Grasland auf alpiner und hochalpiner Ebene, geschlossenes Gebiet, Wolkenschatten.

Fels, Kies Schnee Gewässer Nadelwald Mischwald Laubwald Grünerle Grasland Telagena Grasland auf alpinem und hochalpinem Niveau Geschlossenes Gebiet Wolke Schatten. Felsen, Kies, Schnee, Wasserkörper, Wald, Grünerle, Grasland, Tellagena, Grasland auf alpinem und hochalpinem Niveau, geschlossenes Gebiet, Wolke, Schatten. Wie man sieht, ist eine Verbesserung der Herstellergenauigkeit möglich: Wenn zwei Klassen hohe spektrale und topografische Ähnlichkeiten aufweisen, erhöht sich die Herstellergenauigkeit, wenn die beiden Klassen kombiniert werden.

Gewichtungen der Bänder

Informationen über die Topographie

Steine, Kies Steine mit Grün Schneemenge Wassermassen Nadelwald dicht Nadelwald spärlich Nadelwald sehr spärlich Mischwald dicht Mischwald spärlich Laubwald dicht Laubwald spärlich Laubwald sehr spärlich Latschenkiefer Greenel Alpine niedrige Sträucher Heide Mark grüner Weg Grasland, Heu me Alpine Poslterrasen Almwiese Moos Versiegelte Fläche Wolke Schatten.

Verbesserungsvorschläge

Mehrstufiges erzeugen des Referenzpixelsatzes

Hierarchische Klassifizierung mit

Verwendungsvorschlag für topographische Informationen

Allerdings würde dies auch bedeuten, dass die topografischen Informationen nicht mehr als kNN-Merkmal, sondern als Umgebungsvariable in die Klassifizierung einfließen würden und somit nicht in die euklidische Distanzberechnung einfließen würden, was ebenfalls ein Nachteil sein könnte.

Literatur

Abbildungen

Tabellen

Diagramm 01, Produktionsgenauigkeit ausgewählter Klassen in Abhängigkeit von „k“……31 Diagramm 02, Pixelverteilung der Datensätze „Klassmax160“ und „Klassmax600“…………33 Diagramm 03, Zusammenhang zwischen der Anzahl der Pixel pro Klasse und. ALL1) und mit dem Flächengrößenparameter (ALL) mit einem „k“ gleich Diagramm 04, Beziehung zwischen der Anzahl der Pixel pro Klasse und. Anhang II, Fehlermatrix des Landsat-Ost-Datensatzes, mit Flächengrößenparametern (ALL, Kapitel 4.5.2.) und mit maximal 160 Pixeln pro Klasse (Klassmax160, Kapitel 4.5.4.).

Diagramme