Masterarbeit von Hüseyin Çelik
Evaluation eines Word-Embedding-basierten Information-Retrieval-Systems
Die Arbeit konzentriert sich auf die Evaluation eines Word-Embedding-basierten Information-Retrieval-Systems, das von der Fraunhofer-Gesellschaft zum Patent angemeldet wurde. Ein besonderes Merkmal des IR-Systems ist die Verwendung von "SimSets" als zentrale Datenstruktur, die dazu dient, die Zeit für die Ermittlung der Suchergebnisse zu minimieren. Die Arbeit vergleicht dieses System mit einer Volltextsuche und einer durch einen domänenspezifischen Thesaurus erweiterten Volltextsuche, um deren Effektivität zu bewerten.
In der Arbeit werden drei verschiedene Evaluationsmethoden vorgestellt: Online-Evaluation, Interactive-Evaluation und die Testdatensatz-basierte Evaluation, die dann für die Untersuchung verwendet wird.
Die Ergebnisse zeigen, dass das Word-Embedding-basierte IR-System durch die Verwendung von SimSets in der Lage ist, zusätzliche Textinhalte im Vergleich zu einer herkömmlichen Volltextsuche zu ermitteln. Zudem ist die Effektivität des Systems bei einer domänenspezifischen Textsammlung vergleichbar mit einer Volltextsuche, die durch einen domänenspezifischen Thesaurus erweitert wird.
Kolloqium: 19.06.2023
Betreuer: Prof. Dr.-Ing. Jochen Heinsohn, Prof. Dr. rer. nat. Thomas Hoppe (Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.)
Download: A1-Poster