Multilinguales Korpus

Multilinguales Korpus

Ein mehrsprachiges elektronisches Korpus als Grundlage für korpusbasierte Studien in Linguistik und Übersetzungswissenschaft

Im Rahmen eines aus Landesmitteln (Titelgruppe 84) geförderten Forschungsprojektes im Bereich der elektronischen Sprachforschung arbeitete der Lehrstuhl für Englische Sprach- und Übersetzungswissenschaft am Aufbau eines mehrsprachigen elektronischen Korpus, als Grundlage für korpusbasierte Studien in Linguistik und Übersetzungswissenschaft. Hauptgegenstand des Projekts war die Erprobung einer Methodologie zum Aufbau und zur Bearbeitung eines elektronischen zweisprachigen Textkorpus, das aus englischen Originaltexten, ihren Übersetzungen ins Deutsche und deutschen originalen Vergleichstexten besteht. Ein solches kombiniertes Korpus erlaubt die Bearbeitung einer Reihe von Fragen aus der Sprachtypologie, der kontrastiven Linguistik und der Translationswissenschaft und ist sowohl aus theoretischer (linguistischer und übersetzungswissenschaftlicher) Sicht von Interesse, als auch für die Sprach- und Übersetzungslehre sowie in statistischen und probabilistischen Verfahren der Computerlinguistik einsetzbar. Neben der tatsächlichen Erstellung eines englisch-deutschen Korpus ging es in erster Linie um die systematische Ausarbeitung der wünschenswerten Funktionalitäten, die Erarbeitung von Designkriterien und den probeweisen Einsatz von automatischen und halbautomatischen Werkzeugen zur Korpusauswertung. Hierbei kamen u.a. zur Anwendung: der TnT-Tagger (LINK: www.coli.uni-sb.de/~thorsten/tnt/; FR 4.7, Computerlinguistik), die IMS Corpus Workbench (LINK: www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/), MATE (LINK: www.cogsci.ed.ac.uk/~dmck/MateCode/) und der Systemic Coder (LINK: www.wagsoft.com/Coder/index.html).

www.uni-saarland.de/fak4/fr46/steiner/corpora.html

Kontakt

Prof. Dr. Stella Neumann

RWTH Aachen University
Raum 101
Kármánstraße 17/19
D-52062 Aachen

Tel.: +49 241 80 96105
Fax: +49 241 80 92350

E-Mail: stella.neumann(at)ifaar.rwth-aachen.de