Cindy Chun
Entwicklung eines Web-Tools zur crowd-basierten Erfassung und Evaluierung von Marskratern
Dauer der Arbeit: 4 Monate
Fertigstellung: Juni 2024
Betreuer: M.Sc. David Collmar
Prüfer: Dr.-Ing. Volker Walter
Motivation
Mit dem rasanten Fortschritt moderner Technologien wächst die Menge der verfügbaren Daten (Kolisetty & Rajput, 2019). Zur Bewältigung dieser Datenmengen wird maschinelles Lernen für die effiziente Analyse angewendet, wobei hochwertige Trainingsdaten zur Erlernung von Klassifikationsalgorithmen erforderlich sind (Chen et al., 2020; Soofi & Awan, 2017). Hierzu wird Crowdsourcing, das Auslagern von Arbeiten an eine Menschenmenge über das Internet (Howe, 2006), zur kostengünstigen und effizienten Generierung dieser Daten eingesetzt (Sheng & Zhang, 2019; Zhang, 2022).
Crowdsourcing wird dabei nicht nur für terrestrische Forschungszwecke, sondern auch in der Marsforschung genutzt, beispielsweise zur Erfassung von Trainingsdaten für die automatische Geländeklassifizierung, die für das autonome Fahren von Mars-Rovern verwendet wird (Swan et al., 2021). Angesichts dessen, dass der Mars für die meisten Menschen ein unbekanntes Gebiet darstellt, ist zu untersuchen, wie die Qualität der von Crowdworkern erfassten Daten in einem für sie unvertrauten Themenbereich ist. Im Rahmen dieser Bachelorarbeit werden Marskrater anhand von bezahltem Crowdsourcing erfasst und die Qualität dieser Erfassungen analysiert, um die Effektivität von Crowdsourcing bei der Datengewinnung zu bewerten.
Datengrundlage
Als Datengrundlage werden die Bilddaten des „THEMIS Day IR with ASU Color v13.3 Layer“ aus dem Geoinformationssystem JMARS verwendet. Dieser Karten-Layer besteht aus einer Schummerungskarte, die aus den Daten des Mars Orbiter Laser Altimeter (MOLA) erzeugt und auf 100 Meter pro Pixel umgerechnet wurde, sowie einem kolorierten Infrarotbildmosaik des Thermal Emission Imaging Systems (THEMIS), die miteinander kombiniert wurden. Untersucht werden drei verschiedene Gebiete, die jeweils unterschiedliche Oberflächenstrukturen aufweisen und in drei Schwierigkeitsstufen eingeteilt sind (siehe Abbildung 1).
Methodik
Zur Erfassung der Marskrater wird ein Web-Tool implementiert, welches über die Crowdsourcing Plattform Microworkers bereitgestellt wird. Das Markieren eines Kraters erfolgt durch Platzierung eines Kreises, welcher sowohl über die Bedienung der Buttons als auch durch die Verwendung der Maus positioniert und in der Größe angepasst werden kann (siehe Abbildung 2).
Die erfassten Daten werden zunächst nach dem DBSCAN-Algorithmus geclustert. Anschließend erfolgt eine iterative Entfernung der Ausreißer innerhalb jedes Clusters durch Anwendung des Interquartilsabstands, des Local Outlier Factors und des Silhouettenkoeffizienten. Der mittlere Kreis eines Clusters wird durch den Durchschnitt der Radien und der Kreismittelpunkte aller verbliebenen Erfassungen dieses Clusters bestimmt. Das Ergebnisse der integrierten Kreise werden schließlich mit Referenzdaten aus dem Gazetteer of Planetary Nomenclature verglichen.
Ergebnisse
Der Vergleich zwischen den durch Crowdsourcing erfassten Daten und den Referenzdaten ergab, dass die geometrische Qualität, gemessen mittels Intersection over Union, bei verschiedenen minPts-Werten für alle Bereiche im Durchschnitt 0.8 beträgt. Bei der Analyse der Vollständigkeit fällt jedoch auf, dass Precision und damit auch der F1-Score für den einfachen und mittleren Bereich erheblich niedrig ausfallen, was auf die unzureichende Anzahl an Referenzdaten zurückzuführen ist. Generell zeigt sich mit der Erhöhung der minPts ein Anstieg der Precision, während der Recall tendenziell abnimmt, wie am Beispiel des Bereichs mit komplexer Oberflächenstruktur in Abbildung 3 gezeigt wird.
Die statistische Auswertung der Erfassungen offenbarte überraschenderweise, dass Crowdworker wesentlich höhere Anzahl und detailliertere Erfassungen durchführten als erwartet (siehe Abbildung 4, Abbildung 5 und Abbildung 6).
Fazit
Die Ergebnisse der Arbeit verdeutlichen die hohe Bedeutung einer ausreichend großen Menge an Referenzdaten, um negative Auswirkungen auf die Qualitätsmetriken zu vermeiden. Darüber hinaus wurde gezeigt, dass bezahltes Crowdsourcing Potenzial in anspruchsvolleren wissenschaftlichen Kontexten hat.
Literaturverzeichnis
Literaturverzeichnis
Chen, H., Chen, J. & Ding, J. (2020). Data Evaluation and Enhancement for Quality Improvement of Machine Learning. In 2020 IEEE 20th International Conference on Software Quality, Reliability and Security (QRS). IEEE. https://doi.org/10.1109/qrs51102.2020.00014
Howe, J. (2006). The rise of crowdsourcing. Wired Magazine, 14(06), 1–4.
Kolisetty, V. V. & Rajput, D. S. (2019). A Review on the Significance of Machine Learning for Data Analysis in Big Data. Jordanian Journal of Computers and Information Technology(0), 1. https://doi.org/10.5455/jjcit.71-1564729835
Sheng, V. S. & Zhang, J. (2019). Machine Learning with Crowdsourcing: A Brief Summary of the Past Research and Future Directions. Proceedings of the AAAI Conference on Artificial Intelligence, 33(01), 9837–9843. https://doi.org/10.1609/aaai.v33i01.33019837
Soofi, A. A. & Awan, A. (2017). Classification Techniques in Machine Learning: Applications and Issues. Journal of Basic & Applied Sciences, 13, 459–465. https://doi.org/10.6000/1927-5129.2017.13.76
Swan, R. M., Atha, D., Leopold, H. A., Gildner, M., Oij, S., Chiu, C. & Ono, M. (2021). AI4MARS: A Dataset for Terrain-Aware Autonomous Driving on Mars. In 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE. https://doi.org/10.1109/cvprw53098.2021.00226
Zhang, J. (2022). Knowledge Learning With Crowdsourcing: A Brief Review and Systematic Perspective. IEEE/CAA Journal of Automatica Sinica, 9(5), 749–762. https://doi.org/10.1109/jas.2022.105434
Ansprechpartner

Volker Walter
Dr.-Ing.Gruppenleiter Geoinformatik