Kurzreferat
Die vorliegende Diplomarbeit beschreibt und analysiert Methoden, um aus den Datenbeständen derWikipedia in verschiedenen Sprachen einen multilingualen Thesaurus zu erstellen. Dabei sollen ins-besondere die Beziehungen zwischen Termen (Wörtern, Wortformen, Phrasen) zu sprachunabhängigenKonzepten extrahiert werden sowie die Beziehungen zwischen solchen Konzepten, speziell Beziehungender Über- bzw. Unterordnung (Subsumtion) sowie der semantischen Verwandtheit und Ähnlichkeit. Zudiesem Zweck werden die Anforderungen sowie die verfügbaren Rohdaten analysiert, ein Prototyp zurExtraktion der gewünschten Daten entwickelt und die mit dem Prototyp gewonnenen Daten in Bezug auf die zuvor formulierten Anforderungen evaluiert.
Schlagwörter
Wikipedia; Thesaurus; Sprachverarbeitung; Information Retrieval; Übersetzung
CR-Klassifikation
H.3.1 Content Analysis and IndexingH.3.3 Information Search and RetrievalI.2.7 Natural Language Processing
Diese Diplomarbeit steht unter der GNU-Lizenz für freie Dokumentation 1.2 (GFDL).Sie wurde am 28. Mai 2008 mit L
A
TEX gesetzt, Urheber ist Daniel Kinzler.Detaillierte Angaben zur Lizenz finden sich im KapitelLizenzab Seite207.
Zitation:
Daniel Kinzler,
Automatischer Aufbau eines multilingualen Thesaurus durch Extraktion semantischer und lexikalischer Relationen aus der Wikipedia
, Diplomarbeit an der Abteilung für Automatische Sprachverarbeitung, Institut fürInformatik, Universität Leipzig, 2008.
@mastersthesis{ kinzler2008th,author = "Daniel Kinzler",title = "Automatischer Aufbau eines multilingualen Thesaurus durch Extraktionsemantischer und lexikalischer Relationen aus der Wikipedia",school = "Universit\"{a}t Leipzig",year = "2008",url = "http://brightbyte.de/papers/2008/DA/WikiWord.pdf"}
URI:
Add a Comment