Erstellung repr?sentativer Textdatenbanken des Englischen

The International Corpus of English: Malta & Puerto Rico

Seit 1990 arbeiten über 20 Forscherteams weltweit an dem Projekt ?International Corpus of English“ (ICE) mit dem Ziel der Erstellung vergleichbarer Korpora (Textdatenbanken) des Englischen. Für die meisten Variet?ten stellt dies die erste systematische Erfassung der nationalen Variet?t dar. Es existieren bereits mehr als 10 solcher ICE Korpora (u.a. Canada, Jamaica, Great Britain, Hong Kong, India, Ireland, Singapore, East Africa, New Zealand, Sri Lanka und Nigeria).
Jede der Komponenten beinhaltet 1 Mio W?rter (60% gesprochene, 40% geschriebene Daten) und folgt einem einheitlichen Korpusdesign. Um die Variet?t m?glichst umfassend abzubilden, werden insgesamt Daten aus 32 Genres erhoben (z.B. face-to-face conversations, legal cross-examinations, broadcast news, student essays, administrative writing, press editorials).
Der Lehrstuhl für Englische Sprachwissenschaft arbeitet hierbei intensiv an der Erstellung der ICE Komponenten für Malta und Puerto Rico, in denen das Englische jeweils starken Einflüssen seiner 球探足球比分sprachen (Maltesisch, Italienisch bzw. Spanisch) unterliegt. Da bei der Zusammenstellung des Korpus gr??tenteils gedruckte Texte und Audioaufnahmen zum Einsatz kommen, ist die Datenaufbereitung ein aufw?ndiger Schritt. Sie umfasst nicht nur die Digitalisierung (Transkription bei Audio?dateien, Scan und Texterkennung bei Texten), sondern auch das manuelle Hinzufügen von Markup und eine Annotation der Wortarten (parts-of-speech tagging).
Aufgrund der bisher kompilierten Daten wurden bereits systematische Erkenntnisse zu ausgew?hlten Bereichen der Lexik, Syntax und Pragmatik gewonnen.