Bachelorarbeit von Robert Beilich

Freitag, Oktober 23, 2020

Tooling for big data extraction

Diese Arbeit stellt Probleme und Lösungen vor, die auftreten können, wenn mit großen unstrukturierten Datensätzen gearbeitet wird. Dies erfolgt am Praxisbeispiel, die über die Zeit verwendeten JavaScript-Bibliotheken aus dem CommonCrawl-Datensatz zu extrahieren. Beginnend mit wenigen Hardware-Ressourcen und dem späteren Einsatz der stärkeren Infrastruktur des Future SOC Labs werden die verschiedenen Probleme, die diese Entwicklungsstadien mit sich bringen, behandelt, bspw. knappe Ressourcen zum Betreiben der Datenbank und die Hardwarekonfiguration. Abschließend werden die gesammelten Erkenntnisse anhand eines Teils des Datensatzes für das Praxisbeispiel umgesetzt und die Ergebnisse visualisiert. Die Einschränkung auf nur einen Teil des Datensatzes resultiert daraus, dass mit der vorhandenen Hardware der komplette Datensatz nicht bearbeitet werden kann.

Kolloqium: 23.10.2020

Betreuer: Prof. Dr. Sven Buchholz, Dipl. Inform. Ingo Boersch

Download: A1-Poster