Erstellung einer GUI zur Auswertung von CBIR-Verfahren

Bachelorarbeit am ifp - Alix Grellmann

Alix Grellmann

Erstellung einer GUI zur Auswertung von CBIR-Verfahren

Dauer der Arbeit: 4 Monate
Abschluss: August 2015
Betreuer: Dr.-Ing. Volker Walter
Prüfer: Prof. Dr.-Ing. Dieter Fritsch


 

Motivation

Unter Content-Based Image Retrieval (CBIR) versteht man Verfahren, mit Hilfe derer man unter Verwendung des visuellen Inhaltes große digitale Bilddatenbanken organisieren kann. Der Inhalt eines Bildes ergibt sich dabei aus den Farben, den Texturen und den Umrissen und deren Anordnung oder weiteren Informationen, die sich aus den Bildern selbst über Methoden der Bildverarbeitung ableiten lassen. Metadaten (Beschreibungen, Schlüsselwörter) werden dabei nicht verwendet.

Ziel dieser Bachelorarbeit ist es, eine graphische Benutzeroberfläche (GUI von englisch graphical user interface) zu entwickeln, um aus verschiedenen CBIR-Verfahren auszuwählen, diese zu kombinieren und zu untersuchen, welche sich besonders gut eignen, um ähnliche Bilder in einer Datenbank zu finden.

Vorgehensweise

Typischerweise werden die aus den Bildern extrahierten Informationen durch mehrdimensionale Merkmalsvektoren beschrieben. Das hierfür am häufigsten verwendete Merkmal ist die Farbe, da auf Farbinformationen direkt zugegriffen werden kann. Allerdings werden meist Kombinationen von verschiedenen Merkmalen verwendet, um die Bilder in ihrer Gesamtheit besser beschreiben zu können.

Nach dem Start des Programmes kann der Anwender über ein HTML-file eine Bilddatenbank aus dem Internet herunterladen, ein Referenzbild auswählen und sich für eine Analysemethode entscheiden (Abbildung 1). Beim Vergleich über eine Matrix wird das Bild in gleich große Blöcke unterteilt. Für jede der drei Farbkomponenten (bzw. die Textur) wird pro Block der Mittelwert gebildet.

Auswahlmöglichkeiten im Programm
Abbildung 1: Auswahlmöglichkeiten im Programm

Für jedes Bild werden dann die Merkmalsvektoren entsprechend der getroffenen Auswahl gebildet und mit dem Merkmalsvektor des Referenzbildes verglichen. Dies geschieht über die Berechnung der euklidischen Distanz. Um den Vergleich möglichst intuitiv zu realisieren, werden die erhaltenen euklidischen Distanzen anhand des Maximalwertes normiert, sodass sich Werte zwischen 0 (identisches Bild) und 1 ergeben. Die Bilder werden anschließend entsprechend ihrer euklidischen Distanz sortiert.

Ergebnisse und Fazit

In einer Testreihe wurden die Methoden mit unterschiedlichen Einstellungen und Kombinationen für mehrere Datensätze getestet. Für einen Datensatz mit Karten von fünf Ländern (20 Karten von jedem Land) erhält man das beste Ergebnis über eine Formanalyse mit einer vorherigen Skalierung der Bilder (Abbildung 2). Die Formanalyse wird über die Berechnung der Zernike Momente realisiert. Das Bild links oben entspricht dem Referenzbild. 14 Karten von Island werden hier als ähnlicher erachtet als die erste Karte eines anderen Landes.

Abbildung 2: Ergebnisse einer Formanalyse mit vorheriger Skalierung für einen Datensatz mit Karten verschiedener Länder
2: Ergebnisse einer Formanalyse mit vorheriger Skalierung für einen Datensatz mit Karten verschiedener Länder

Für einen anderen Datensatz mit Jaguar-Bildern (42 Bilder der Großkatze und 16 Bilder von Autos einer britischen Automarke) erzielt man dagegen mit einer Formanalyse schlechte Ergebnisse (Abbildung 3). Schon das siebte Bild zeigt nicht wie das Referenzbild eine Großkatze, sondern ein Auto. Dies liegt daran, dass sowohl die Großkatzen als auch die Autos aus sehr unterschiedlichen Blickwinkeln aufgenommen wurden, sodass eine Formanalyse nicht greift.

Ergebnisse einer Formanalyse beim Jaguar-Datensatz
Abbildung 3: Ergebnisse einer Formanalyse beim Jaguar-Datensatz

Hier empfiehlt sich eine Kombination aus Farb- und Texturanalyse oder noch besser eine reine Farbanalyse. So kann man für ein Referenzbild, das eine Katze zeigt, erreichen, dass das erste Bild eines Autos erst an Stelle 42 erscheint. Dies bedeutet, dass (von einem Bild abgesehen) alle Katzen-Bilder als ähnlicher erachtet werden als die Bilder der Autos. Eine Skalierung der Bilder ist dabei nicht nötig.

Es hat sich also gezeigt, dass es nicht möglich ist, aus diesen Verfahren eines oder eine bestimmte Kombination auszuwählen, mit dem die Suche nach ähnlichen Bildern für alle Datensätze effizient zu realisieren ist. Vielmehr muss man für jedes Anwendungsgebiet feststellen, welches Verfahren am besten geeignet ist.

 

Ansprechpartner

Dieses Bild zeigt Volker Walter

Volker Walter

Dr.-Ing.

Gruppenleiter Geoinformatik

Zum Seitenanfang