Masterarbeit von Hüseyin Çelik

Montag, Juni 19, 2023

Evaluation eines Word-Embedding-basierten Information-Retrieval-Systems

Die Arbeit konzentriert sich auf die Evaluation eines Word-Embedding-basierten Information-Retrieval-Systems, das von der Fraunhofer-Gesellschaft zum Patent angemeldet wurde. Ein besonderes Merkmal des IR-Systems ist die Verwendung von "SimSets" als zentrale Datenstruktur, die dazu dient, die Zeit für die Ermittlung der Suchergebnisse zu minimieren. Die Arbeit vergleicht dieses System mit einer Volltextsuche und einer durch einen domänenspezifischen Thesaurus erweiterten Volltextsuche, um deren Effektivität zu bewerten.

In der Arbeit werden drei verschiedene Evaluationsmethoden vorgestellt: Online-Evaluation, Interactive-Evaluation und die Testdatensatz-basierte Evaluation, die dann für die Untersuchung verwendet wird.

Die Ergebnisse zeigen, dass das Word-Embedding-basierte IR-System durch die Verwendung von SimSets in der Lage ist, zusätzliche Textinhalte im Vergleich zu einer herkömmlichen Volltextsuche zu ermitteln. Zudem ist die Effektivität des Systems bei einer domänenspezifischen Textsammlung vergleichbar mit einer Volltextsuche, die durch einen domänenspezifischen Thesaurus erweitert wird.

Kolloqium: 19.06.2023

Betreuer: Prof. Dr.-Ing. Jochen Heinsohn, Prof. Dr. rer. nat. Thomas Hoppe (Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V.)

Download: A1-Poster