Masterarbeit von Benjamin Arndt
Schlagwortgenerierung für große Dokumentenportfolios und Integration durch ein Business-Intelligence-Tool
Ziel der Arbeit ist die Evaluation von Algorithmen zur Schlagwort-Extraktion aus Dokumenten. Gesucht wird eine Methode, die sich im Kontext der Erstellung von Technologie-Übersichtskarten aus u.a. Patentschriften zur möglichst eindeutigen Beschreibung einzelner Dokumente oder Dokumentmengen eignet. Kriterien zur Abbildung von Beschreibungsgüte und Performanz sollen geeignet definiert und erhoben werden. Ausgewählte Algorithmen sollen in einem SE-Prozess umgesetzt werden. Eine besondere Schwierigkeit der Aufgabe ergibt sich durch die Arbeit mit realen Datenmengen (Stemming, Stoppworte etc.).
Anforderungen an die Algorithmen sind der Umgang mit großen Datenmengen, Laufzeit und das Finden geeigneter Schlüsselworte und –Phrasen. Es werden drei Anwendungsfälle (Suche in Daten, Clustern, Keyword-Cloud) unterschieden. Fünf Algorithmen aus dem Bereich der unüberwachten Extraktion werden dargestellt, implementiert und evaluiert. Es erfolgt eine Aufteilung in zwei Klassen, je nachdem, ob zur Schlagwort-Bestimmung eines Dokumentes die gesamte Dokumentenmenge berücksichtigt wird (TFIDF, CorePhrase) oder nicht (TextRank, Rake, statistische Kookkurrenz-Auswertung). Abschließend erfolgt nach einer Komplexitätsabschätzung die Umsetzung zweier Ansätze in einsatzbereite RapidMiner-Operatoren.
Kolloqium: 09.04.2015
Betreuer: Dipl.-Inform. Ingo Boersch, Prof. Dr. rer. nat. Gabriele Schmidt, Uwe Kuehn M. Sc. (mapegy GmbH)
Download: A1-Poster