Untersuchung von Verfahren zur web-basierten Bildersuche und Kartenerkennung

Bachelorarbeit am ifp - Fabian Lorenz

Fabian Lorenz

Untersuchung von Verfahren zur web-basierten Bildersuche und Kartenerkennung

Dauer der Arbeit: 4 Monate
Abschluss: März 2018
Betreuer: Dr.-Ing. Volker Walter
Prüfer: Prof. Dr.-Ing. Uwe Sörgel


 

Motivation

Das Internet liefert ein breites, nahezu unbegrenztes Spektrum an wissenschaftlichen Daten und Fakten, welche häufig in Form von Bildern visualisiert werden. Das Verwenden von Suchmaschinen hilft diese zu finden. Falls bei einem Anwender das Interesse besteht, ein Teil dieser Suchergebnisse als lokale Sammlung auf dessen Festplatte anzulegen, muss jedes Bild einzeln und manuell heruntergeladen werden, was je nach Größe der Sammlung viel Zeit in Anspruch nehmen kann. Das Programm WebIsMad (Web based Image Searching and Map detection) automatisiert diesen Aufwand, nachdem Methoden der Bildanalyse die einzelnen Elemente auf vorgegebene Parameter untersucht haben. Im Kontext dieser Arbeit liegt der Schwerpunkt darin, Weltkarten mit Hilfe dieses Programms der gleichnamigen Klasse zuzordnen.

Vorgehensweise

WebIsMad ist ein Webcrawler, welcher den Seitenquelltext verschiedener Webseiten nach Bildern durchsucht und diese gegebenenfalls herunterlädt. Dabei können die gewünschten Suchparameter über eine grafische Benutzerobefläche (GUI) in die Suche integriert werden. Dazu gehört unter anderem die Wahl eines Verfahrens, mit Hilfe dessen in frage kommende Bilder auf vorbestimmte Eigenschaften untersucht werden.  
Die GUI ermöglicht nicht nur die Wahl der Parameter sondern auch die Verwaltung von externen Daten, wie zum Beispiel der Import einer Liste von Start-URLs. Zusätzlich kann die aktive Suche vorübergehend pausiert, beendet und an einem späteren Zeitpunkt fortgesetzt werden.

Darstellung der Benutzeroberfläche von WebIsMad.
Abbildung 1: Darstellung der Benutzeroberfläche von WebIsMad. Das obere Segment ermöglicht das Verwalten von Daten. Anschließend erfolgt die Wahl der Suchparameter. Unten kann der Fortschritt beobachtet werden.

Die Analyse setzt je nach Auswahl an Textbausteinen, die mit dem Bild mitgeliefert werden (z.B. Seitenquelltext, Bildname), oder am isolierten Bildinhalt selbst an. In diesem Fall finden Methoden des Content Based Image Retrieval (CBIR) Anwendung. Die Umsetzung von letzterem gestaltet sich komplexer, wenn auch vielseitiger.

Ein Ansatz besteht darin den Farbwert zu bestimmen, der im Bild am häufigsten vorkommt. Im direkten Vergleich zwischen 200 Weltkarten und restlichen 500 Bildern stellen sich markante Unterschiede heraus, weshalb man dies bei einer Klassifizierung berücksichtigen kann.

Vergleich der Verteilung der häufigsten Farbwerte.
Abbildung 2: Vergleich der Verteilung der häufigsten Farbwerte. Oben: 200 Weltkarten. Unten: 500 Bilder mit sonstigen Motiven.

Auf dieser Erkenntnis basiert die Bestimmung des relativen Anteils des maximalen Farbwerts am Gesamtbild. Aufgrund der Tatsache, dass die Erdoberfläche zu zwei Drittel aus Wasser besteht und Ozeane auf Weltkarten mit einer homogenen Farbe dargestellt werden, liegt die Vermutung nahe, dass der maximale Farbwert einen ähnlichen Anteil annimmt. Der vorherrschende Farbwert stellt den Mittelwert einer gauss-förmigen Verteilung dar, sodass eine iterative Bestimmung der Standardabweichung σ die Binarisierung des Bildes ermöglicht.

Zur Binarisierung des Bildes wird eine geeignete Standardabweichung sigma iterativ bestimmt.
Abbildung 3: : Zur Binarisierung des Bildes wird eine geeignete Standardabweichung sigma iterativ bestimmt.

Abhängig von der Wahl der Stichprobe ergibt sich in der Praxis ein Mittelwert des Weißanteils in Weltkarten von 54% und 67%, wodurch der Einfluss von Abbildungsverzerrungen deutlich wird.
In einem kombinierten Verfahren werden beide beschriebenen Merkmale berücksichtigt.

Gemeinsam mit der Anzahl von bestimmbaren Suchbegriffen, die im Dateinamen detektiert werden, lässt sich ein Bild durch diese drei Eigenschaften charakterisieren.

Ergenisse und Fazit

Die Bedienung der GUI von WebIsMad und der Ablauf des integrierten Webcrawlers erfolgt wie vorgesehen.
Das Ergebnis der Klassifizierung von Weltkarten kann hinsichtlich seiner Zuverlässigkeit noch verbessert werden, denn wie die unten stehende Abbildung zeigt, bilden sich im Merkmalsraum keine klassenspezifischen Ballungsräume, wodurch Algorithmen wie k-means oder nearest neighbor nicht angewendet werden können.  
Die bildinhaltsorientierten Eigenschaften liegen zwar bei 89% der Weltkarten  vor, das reicht jedoch nicht aus, um sie zuverlässig von Bildern mit restlichen Motiven zu trennen. 27% der Bilder, die als Weltkarte interpretiert werden, sind korrekt zugeordnet worden. 
Am zuverlässigsten ist zum aktuellen Zeitpunkt das Klassifizieren des Bildes ausschließlich über den mitgelieferten Dateinamen. In diesem Fall liegt die Richtigkeit der Klasse Weltkarte bei 65%-70%.

Betrachtung von 200 Weltkarten und 500 sonstigen Bildern im Merkmalsraum.
Abbildung 4: Betrachtung von 200 Weltkarten und 500 sonstigen Bildern im Merkmalsraum. Die x-Achse gibt den häufigsten Farbwert an, die y-Achse zeigt dessen Anteil am Gesamtbild, die z-Achse gibt Auskunft darüber ob sich eines der Worte "world" oder "welt" im Dateiamen befindet.

Ansprechpartner

Dieses Bild zeigt Volker Walter

Volker Walter

Dr.-Ing.

Gruppenleiter Geoinformatik

Zum Seitenanfang