Am Anfang des Kolloquiums wird die Notwendigkeit einer *linguistischen*
Analyse und Bewertung der Ergebnisse des statistisch-basierten Tagging von
nicht-Englischen Corpora durch einige Bespiele aus dem NEGRA Corpus und
(soweit uebersetzbar/erklaerbar) aus dem Czech National Corpus motiviert.
Der zweite Teil wird dann aus theoretischen Ueberlegungen bestehen, die die
Ergebnisse und vor allem die allgemeine Adaequatheit der *jetzigen*
statistischen Methoden reflektieren. Dabei werden u.a. sowohl linguistische
Gesichtspunkte (langue/parole Dichotomie, freie Wortstellung, usw.) als
auch mathematisch-informatische (Korrektheit der Programme) in Betracht
genommen.
Ausserdem werden wir uns mit dem Begriff "smoothing" befassen, dessen
Uebersetzung in manche nicht-Englische Sprachen uebrigens sehr
aussagekraeftig ist.
In dem letzten Teil werden wir uns dann einige (bisher: simple) Strategien
anschauen, die entwickelt worden sind mit dem Ziel, mindestens einige der
aus den prinzipiellen Eigenschaften der statistischen Verfahren
resultierenden Fehler im Tagging von deutschen Texten zu entdecken oder
sogar zu beheben.
Zusammenfassung und Ausblick werden dann aus einem einzigen (kurzen) Satz
bestehen.