Vergleich unterschiedlicher Abstandsmaße zur Namenssuche in unstrukturierten Daten beschränkter Qualität

Art der Arbeit: Bachelorarbeit

 

Fachlicher Hintergrund:

In deutschen Bibliotheken sind diverse Werke spanischsprachiger Autoren in deutscher Übersetzung vorhanden. Ebenso existiert eine Liste spanischer Autoren. Leider sind beide Datenbestände aus Informatikersicht von geringer Qualität. Zu den Problemen gehören unterschiedliche Kodierungen, Schreibfehler, fehlenden Trennung von Namensbestandteilen und Unterschiede in verwendeten Abkürzungen, Reihenfolge etc. 

Aufgabenbeschreibung:

Im Rahmen der Arbeit soll ein Konzept zum Vergleich der Namen entsprechend verschiedener Abstandsmaße entwickelt und als prototypisches Programm umgesetzt werden. Dazu müssen Abstandsmaße bewertet und für den konkreten Einsatz angepasst werden. Darunter fallen z.B. Levenshtein-Distanz, Haro-Winkler und andere.

Mögliche Arbeitsschritte:

    • Analyse der genauen genauen Anforderungen aus der Literaturwissenschaft

      • Betrachtung des Datenbestandes (Autorenliste und Werke mit Autoren)
      • Erfassung der Anforderungen bezüglich der unterschiedlichen Schreibweisen von Autornamen

    • Betrachtung des Standes der Forschung und der Technik bei Verfahren zur Distanzmessung von Autorennamen
    • Finden geeigneter Abstandsmaße
    • Entwicklung eines Prototypen zur Erprobung der Abstandsmaße (Web-basierte Abfragemöglichkeit)

Die genaue Festlegung des Themas erfolgt in Abstimmung mit den Betreuern unter Berücksichtigung eventuell schon an andere Studenten vergebener Themengebiete. Eine gemeinsame Bearbeitung verschiedener Teilthemen durch mehrere Studenten ist unter Umständen möglich. 

Literatur und Ressourcen:

    • Cohen, William, Pradeep Ravikumar, and Stephen Fienberg. "A comparison of string metrics for matching names and records." Kdd workshop on data cleaning and object consolidation. Vol. 3. 2003 (https://www.cs.cmu.edu/afs/cs/Web/People/wcohen/postscript/kdd-2003-match-ws.pdf)
    • Winkler, William E. "Overview of record linkage and current research directions." Bureau of the Census. 2006. (http://www.census.gov/srd/papers/pdf/rrs2006-02.pdf)

Betreuer: Prof. Albrecht Buschmann / Dr. Thomas Mundt (thm@informatik.uni-rostock.de)

Voraussetzungen: Keine besonderen, aber einfache Programmierkenntnisse in einer höheren Programmiersprache sind von Vorteil.