NLPLAB-projektet TRANSMAP


NLPLAB-projekt

TRANSMAP:
Från parallellkorpusar till översättningsdatabaser

This page in English

Syfte

Projektet syftar till att utveckla en metod och ett system för att utvinna klassificerade översättningsdata ur parallella korpusar. Det kommer därigenom att ytterligare öka användbarheten av parallella korpusar för såväl språkvetenskapliga som språkteknologiska ändamål. Systemets användbarhet kommer att demonstreras på ett antal olika parallella texter och nyttan av genererade data kommer att visas för såväl översättningsstudier som datorstödd översättning.

Uppnådda resultat

Definition av standardformat i XML för käll- och måltexter samt länkade filer.
Ordklasstaggning av projektkorpusen samt taggning av dependensrelationer med hjälp av Connexors Functional Dependency Grammar Parser.
Utveckling, evaluering och distribution av ett interaktivt verktyg, I*Link, för att skapa ordlänkade parallella textfiler, med fokus både på resurser i systemet och användargränssnitt.
Utveckling av riktlinjer för ordlänkning med tanke på olika användningar, häribland lexikografi och maskinöversätting.
Förbättring av befintliga verktyg för frasigenkänning och ordlänkning så att de kan utnyttja ordklassinformation och externt tillförda data

Pågående arbete

Slutrapportering

Deltagare

Lars Ahrenberg
Mikael Andersson
Magnus Merkel

Magisterarbeten inom projektet

Maria Holmqvist: Identifying translation shifts using a dependency parser and interactive word alignment.

Michael Petterstedt: Interaktiv länkning i bitexter - I*Link.

Finansiär

Vetenskapsrådet 2000-2002

Publikationer

Ahrenberg, Lars, Magnus Merkel, Michael Petterstedt: Interactive Word Alignment for Language Engineering. Accepted for publication as project note at The 11th Conference of the European Chapter of the Association for Computational Linguistics April 12-17, 2003 Agro Hotel, Budapest, Hungary (EACL-2003).
Magnus Merkel, Michael Petterstedt, Lars Ahrenberg: Interactive Word Alignment for Corpus Linguistics. Accepted for publication in Proceedings of Corpus Linguistics 2003. UCREL Technical Paper No 16.
Lars Ahrenberg, Magnus Merkel, Mikael Andersson: A System for Incremental and Interactive Word Linking. Third International Conference on Language Resources and Evaluation (LREC 2002), Las Palmas, 29-31 May 2002.
Magnus Merkel: Comparing source and target texts in a translation corpus. Presented at the 13th Nordic Conference on Computational Linguistics, NoDaLiDa'01, Uppsala, Sweden.
Ahrenberg, Lars and Håkan Jonsson: From word alignment to machine translation via superlinks. Proceedings of the 13th Conference on Computational Linguistics, Uppslala, May 21-22, 2001.
Magnus Merkel & Mikael Andersson: Combination of contextual features for word sense disambiguation: LIU-WSD. To be published in the Proceedings of the SENSEVAL-2 Workshop, Toulouse. 2001.
Lars Ahrenberg, Mikael Andersson and Magnus Merkel: A knowledge-lite approach to word alignment. In J. Véronis (ed.) Parallel Text Processing: Alignment and Use of Parallel Corpora, pp. 97-116. Dordrecht, Kluwer, 2000.
Lars Ahrenberg and Magnus Merkel: Correspondence measures for MT evaluation. In Proceedings of the LREC 2000 Workshop on Evaluation of Machine Translation, Athens, Greece 29th May, 2000, pp. 41-46.
Magnus Merkel & Mikael Andersson. Knowledge-lite extraction of multi-word units with language filters and entropy thresholds. In Proceedings of RIAO'2000, Collége de France, Paris, France, April 12-14, 2000, Volume1, pp. 737-746.

Sidan senast ändrad 2003-07-15

NLPLABs ingångssida.

TRANSMAP:Från parallellkorpusar till översättningsdatabaser