Our Projects and Cooperations

In the following, we give an overview of present and past projects and cooperations at out Applied Computational Linguistics lab – partly third-party funded and on-going, partly successfully concluded.

Deutsche Forschungsgemeinschaft logo Social Sciences and Humanities Research Council logo National Endowment for the Humanities logo Digging into Data Challenge logo

Machine Translation and Automated Analysis of Cuneiform Languages

MTAAC, 2017-2019, winner of the T-AP Digging into Data Challenge Award, funded by NEH, DFG, and SSHRC

Ancient Mesopotamia, birthplace of writing, has produced vast numbers of cuneiform tablets that only a handful of highly specialized scholars are able to read. The task of studying them is so labor intensive that the vast majority have not yet been translated, with the result that their contents are not accessible either to historians in other fields or to the wider public. This project will develop and apply new computerised methods to translate and analyse the contents of some 67,000 highly standardised administrative documents from southern Mesopotamia from the 21st century BC. By automating these basic but labor-intensive processes, we will free up scholars’ time. The tools that we will develop, combining machine learning, statistical and neural machine translation technologies, may then be applied to other ancient languages. Similarly, the translations themselves, and the historical, social and economic data extracted from them, will be made publicly available on the web.

The project is a collaboration between the Applied Computational Linguistics Lab at Goethe University Frankfurt, Germany (DFG), the University of Toronto, Canada (SSHRC), and the UCLA (NEH). Principle investigators are Heather D. Baker (University of Toronto, Assyriology), Christian Chiarcos (University of Frankfurt, Computational Linguistics) and Robert K. Englund (University of California, Los Angeles, Assyriology).

Links: Project Website, Project Twitter Account, T-AP Digging into Data Challenge Award


Deutsche Forschungsgemeinschaft logo
Linguistik-Server Essen (LINSE) logo
Universitätsbibliothek Frankfurt logo
Institut für Deutsche Sprache logo
Portal für Sprachwissenschaft logo

Fachinformationsdienst (FID) Linguistik

2017-2019, DFG/LIS

Die DFG fördert den Fachinformationsdienst (FID) Linguistik, ein Kooperationsprojekt zwischen der Universitätsbibliothek Johann Christian Senckenberg und Prof. Christian Chiarcos vom Forschungsgebiet Angewandte Computerlinguistik (AcoLi) am Institut für Informatik der Goethe Universität. Der FID Linguistik wird das bewährte Lin|gu|is|tik-Portal weiter ausbauen. Dies ist ein Fachportal für die allgemeine Linguistik, die vergleichende Sprachwissenschaft und die Linguistiken der Einzelphilologien, das einen breit angelegten, einheitlichen Zugang zu fachspezifischen, wissenschaftlichen Ressourcen bietet. Im Rahmen des FID Linguistik sind verschiedene Maßnahmen geplant, um die Recherche nach benötigten Forschungsdaten zu optimieren, ihre Sichtbarkeit zu erhöhen und die Verfügbarkeit von kostenpflichtigen Forschungsdaten zu unterstützen. Die Angewandte Computerlinguistik trägt zum Projekt bzgl. der Integration innovativer Methoden im Bereich des Linguistic Linked Open Data und der Sprachtechnologie bei:

Zum Nebeneinander quantitativer und qualitativer Methoden in der germanistischen historischen Philologie

QuantQual@CEDIFOR, 2016-2017, CEDIFOR-Pilotprojekt

cedifor logo Mit der kontinuierlich verbesserten Verfügbarkeit durchsuchbarer und für die empirische Forschung aufbereiteter Ressourcen bzw. der für diese Aufbereitung einsetzbaren Werkzeuge besteht für die meisten Geisteswissenschaften eine der großen Herausforderungen der Zeit darin, die wissenschaftssoziologischen, methodischen und infrastrukturellen Unterschiede zwischen der traditionellen qualitativ-empirischen und der aus der Informationstechnologie vermittelten datenbasierten quantitativ-empirischen Methodik auszugleichen, in Einklang zu bringen, evtl. zu überwinden, in jedem Fall aber zunächst kritisch fundiert hinterfragen und/oder einordnen zu können. Hierzu soll das Projekt widersprüchliche Befunde zu diachronen Wandelprozessen der deutschen Wortstellung dokumentieren und klären, die durch die unabhängige Anwendung qualitativ-empirischer (philologischer) und quantitativ-heuristischer (korpuslinguistischer) Verfahren aufgebracht wurden.


Linked Open Dictionaries (LiODi)

Nachwuchsgruppe, 2015-2020, BMBF/ehuman

BMBF logo
Die Nachwuchsgruppe "Linked Open Dictionaries" (LiODi) beschäftigt sich mit der Entwicklung überzeugender Anwendungsszenarien für Linked Open Data-Technologien in den Sprach- und Kulturwissenschaften. Insbesondere soll eine komparativ-lexikographische Werkbank geschaffen werden, die zur Erforschung von Lautwandelprozessen, Sprachkontakt und Begriffsgeschichte eingesetzt werden soll und dafür erstmalig einheitlichen Zugriff auf heterogene Wörterbücher, transitiv-lexikalische Anfragen über mehrere Wörterbücher hinweg und die Identifikation lautähnlicher Formen bietet.

Vorphase

Dezember 2015 bis November 2016

In Zusammenarbeit mit dem Institut für empirische Sprachwissenschaften der Goethe-Universität soll in der zunächst einjährigen Vorphase ein Prototyp entwickelt werden, der diese Funktionalitäten in vereinfachter Form für die Türksprachen anbietet.

Hauptphase

2017 bis 2020

In der Hauptphase erweitern wir die Anwendung auf weitere Sprachfamilien Eurasiens, insbesondere des Kaukasusraumes. Die entstehende Technologie soll dadurch zu einer von einer spezifischen Sprachfamilie unabhängigen Lösung ausgebaut und in verschiedenen Fallstudien zum Sprachkontakt v.a. im Kaukasusraum (Armenien, Aserbaidschan, Georgien) eine darauf aufbauende wissenschaftliche Methodik werden.

Die Nachwuchsgruppe ist eine Zusammenarbeit der Institute für Informatik und Empirische Sprachwissenschaft und beinhaltet sowohl sprachtechnologische als auch sprach- und kulturwissenschaftliche Fragestellungen. Zu Details vgl. die Projektseite.

Deutsche Forschungsgemeinschaft logo
Linguistik-Server Essen (LINSE) logo
Universitätsbibliothek Frankfurt logo
Institut für Deutsche Sprache logo
Portal für Sprachwissenschaft logo

Virtuelle Fachbibliothek Allgemeine Sprachwissenschaft

Fortsetzungsphase, 2015-2016, DFG/LIS

Das Fachportal Lin|gu|is|tik bietet Fachinformationen zu allen Bereichen der Sprachwissenschaft, von Allgemeiner und Vergleichender Linguistik über die größeren europäischen Einzelphilologien bis hin zu kleinen, bedrohten oder alten Sprachen. Das Portal ist interdisziplinär ausgerichtet, um Linguisten und Studierenden wissenschaftliches Arbeiten über die eigenen Fachgrenzen hinaus zu ermöglichen.

An der zweiten Phase des Projektes (2015-2016) ist die Angewandte Computerlinguistik mit der Nutzbarmachung von Technologien aus dem Bereich des Linguistic Linked Open Data (LLOD) beteiligt.

Schwach überwachte Verfahren zur Bibliographieanalyse

seit 2014, SpringerNature

Springer Nature logo Seit April 2014 werden wir durch SpringerNature bzgl. der Entwicklung schwach überwachter Verfahren der Bibliographieanalyse unterstützt. In diesem Zusammenhang entsteht derzeit ein Paket von Open Source Software, das zeitgemäße Verfahren des Maschinellen Lernens mit etablierten regelbasierten Methoden zusammenführt, die den derzeitigen Industriestandard darstellen.

Darüber hinaus haben wir erfolgreich an der Konzeption und Implementierung des ersten von Springer Nature veröffentlichten Maschinen-generierten Buchs mitgewirkt.

Frankfurter Goethe-Haus logo
Goethe Universität Frankfurt logo
TU Darmstadt logo LOEWE logo

LOEWE-Schwerpunkt Digital Humanities

2011-2014, Land Hessen

Finanziert aus dem LOEWE-Programms des Landes Hessen bündelt der Schwerpunkt Digital Humanities die einschlägigen Ressourcen und Aktivitäten an zwei hessischen Hochschulen (Universität Frankfurt, TU Darmstadt) sowie an einer benachbarten außeruniversitären Einrichtungen (Freies Deutsches Hochstift / Frankfurter Goethe Museum) und schafft eine gemeinsame informationstechnologische Infrastruktur. Aufbauend auf den Aktivitäten ausgewiesener und drittmittelstarker Wissenschaftler bildet er die Basis für einen schlagkräftigen Verbund, der die Bemühungen um einen Ausbau der Digital Humanities an den Partnerinstitutionen konzentriert und weit über Hessen hinaus sichtbar macht.

Aus dem LOEWE-Schwerpunkt heraus wurde Januar 2013 die Juniorprofessur "Angewandte Computerlinguistik" an der Goethe-Universität Frankfurt eingerichtet. Wir haben in der Verlängerungsphase (01/2014-12/2014) eigene Mittel akquiriert und v.a. im Bereich der Entwicklung von Lösungen für vergleichende und historische Sprachwissenschaft sowie die germanistischen Philologien gearbeitet.