Abhängigkeiten zwischen Texten

Art der Arbeit: Bachelorarbeit, Studienarbeit, Literaturarbeit

Fachlicher Hintergrund: Die Unterschiede von Texten sind dank Programmen wie "diff" relativ gut verstanden.

Aufwendigere Algorithmen gehen davon aus, dass ein Text durch 3 verschiedene Operationen auf einzelnen Zeichen (n√§mlich: insert, delete, modify) bearbeitet werden kann, und vergeben f√ľr die einzelnen Operationen virtuelle Kosten. Aus einem Text 1 kann nun durch unterschiedliche Kombinationen von Operationen ein Text 2 entstehen. Die Vergabe von Kosten gestattet nun die Bestimmung "kosteng√ľnstigster" Wege, wie aus dem einen Text der andere Text wird.

Diese Ans√§tze erlauben aber keine Aussage dar√ľber, welcher Text das Original und welcher Text das daraus entstandene Derivat ist. Andererseits aber f√§llt eine solche Analyse einem menschlichen Beobachter meist leicht: Der erste Text ist ein "grober Entwurf", die zweite Version hat bereits deutlich weniger Schreibfehler, eventuell sind einige S√§tze hinzugetreten, andere wurden gel√∂scht. Die letzte Version ist meist fast fehlerfrei.

Aufgabenbeschreibung: Es ist zu untersuchen, ob aus statistischen Eigenschaften von Texten entschieden werden kann, welcher Text der fr√ľhere und welcher der sp√§tere war.

Zu diesem Zweck sollen Texte analysiert werden, bei denen die zeitliche Reihenfolge bekannt ist. Die sich ergebenden Merkmale (Textlänge, Anzahl von Fehlern, Arten der Veränderungen usw.) sollen durch einen Lernalgorithmus untersucht werden. Ziel ist die Entwicklung eines Modells, das die Reihenfolge vorhersagen kann.

Betreuer: Prof. Clemens Cap, Martin Garbe

Kontakt: E-Mail an clemens.cap(at)uni-rostock.dethm(at)informatik.uni-rostock.de

Voraussetzungen: Grundlegende Programmierkenntnisse.