wissenschaftlicher Herausforderungen, deren Bewältigung Erkenntnisgewinn und
zugleich praktischen Nutzen verspricht. Retrieval-Systeme müssen möglichst viel
über ihre Benutzer lernen, um deren Informationsbedürfnisse zu erahnen. Diese
Bedürfnisse sind oftmals in kurzen Texten ausgedrückt und auch der Großteil
zugreifbarer Daten liegt in Textform, in natürlicher Sprache vor. Die
Beurteilung der Relevanz von Dokumenten für Benutzer in deren gegenwärtigem
Kontext erfordert oftmals Wissen über die Bedeutung dieser Texte.
Viele Retrieval-Systeme müssen sich in einer feindseligen Umgebung
zurechtfinden. Lernt etwa ein Spam-Filter ein Modell, das den Aufbau vom Spam
charakterisiert, dann werden die Versender den Aufbau ihrer Mails verändern um
den Filter zu umgehen, sofern der Filter nur hinreichend viele Empfänger
abschirmt. Analog dazu müssen Suchmaschinen die Relevanz von Web-Seiten
beurteilen während deren Betreiber Relevanzmerkmale wie den PageRank gezielt
manipulieren. Autohersteller möchten anhand von Werkstattberichten Trends und
Auswirkungen von Konstruktionsänderungen verfolgen und Serviceprozesse
optimieren während Werkstätten die Durchführung teurerer Reparaturen bevorzugen.
Neue Ergebnisse aus dem maschinellen Lernen liefern Ansätze zur Lösung vieler
dieser Probleme. Diskriminative Lernverfahren können Eigennamen besser erkennen,
Wortfolgen parsieren und Terme in Taxonomien einordnen. Halbüberwachte
Lernverfahren benötigen dafür nur ein oder sehr wenige annotierte
Trainingsbeispiele; neue statistische Modelle charakterisieren vernetzte Texte
und beantworten viele Fragen über Entstehung und Struktur von Textsammlungen.
Einige Herausforderungen des Information Retrieval werfen jedoch neue,
unbeantwortete Fragekomplexe im maschinellen Lernen auf.