Syfte
Projektet syftar till att utveckla en metod och ett system för att utvinna klassificerade översättningsdata ur parallella korpusar. Det kommer därigenom att ytterligare öka användbarheten av parallella korpusar för såväl språkvetenskapliga som språkteknologiska ändamål. Systemets användbarhet kommer att demonstreras på ett antal olika parallella texter och nyttan av genererade data kommer att visas för såväl översättningsstudier som datorstödd översättning.
Uppnådda resultat
- Definition av standardformat i XML för käll- och måltexter samt länkade filer.
- Ordklasstaggning av projektkorpusen samt taggning av dependensrelationer med hjälp av Connexors Functional Dependency Grammar Parser.
- Utveckling, evaluering och distribution av ett interaktivt verktyg, I*Link, för att skapa ordlänkade parallella textfiler, med fokus både på resurser i systemet och användargränssnitt.
- Utveckling av riktlinjer för ordlänkning med tanke på olika användningar, häribland lexikografi och maskinöversätting.
- Förbättring av befintliga verktyg för frasigenkänning och ordlänkning så att de kan utnyttja ordklassinformation och externt tillförda data
Pågående arbete
Deltagare
Lars Ahrenberg
Mikael Andersson
Magnus Merkel
Magisterarbeten inom projektet
Maria Holmqvist: Identifying translation shifts using a dependency parser and interactive word alignment.
Michael Petterstedt: Interaktiv länkning i bitexter - I*Link.
Finansiär
Vetenskapsrådet 2000-2002
Publikationer
- Ahrenberg, Lars, Magnus Merkel, Michael Petterstedt: Interactive Word Alignment for Language Engineering. Accepted for publication as project note at The 11th Conference of the European Chapter of the Association for Computational Linguistics April 12-17, 2003 Agro Hotel, Budapest, Hungary (EACL-2003).
- Magnus Merkel, Michael Petterstedt, Lars Ahrenberg: Interactive Word Alignment for Corpus Linguistics. Accepted for publication in Proceedings of Corpus Linguistics 2003. UCREL Technical Paper No 16.
- Lars Ahrenberg, Magnus Merkel, Mikael Andersson: A System for
Incremental and Interactive Word Linking. Third International
Conference on Language Resources and Evaluation (LREC 2002), Las
Palmas, 29-31 May 2002.
-
Magnus Merkel: Comparing source and target texts in a translation
corpus. Presented at the 13th Nordic Conference on Computational Linguistics,
NoDaLiDa'01, Uppsala, Sweden.
- Ahrenberg, Lars and Håkan Jonsson: From word alignment to machine translation via superlinks. Proceedings of the 13th Conference on Computational Linguistics, Uppslala, May 21-22, 2001.
- Magnus Merkel &
Mikael Andersson: Combination of contextual
features for word sense disambiguation: LIU-WSD. To be published in the
Proceedings of the SENSEVAL-2 Workshop, Toulouse. 2001.
- Lars Ahrenberg, Mikael Andersson and Magnus Merkel: A knowledge-lite approach to word alignment. In J. Véronis (ed.) Parallel Text Processing: Alignment and Use of Parallel Corpora, pp. 97-116. Dordrecht, Kluwer, 2000.
- Lars Ahrenberg and Magnus Merkel: Correspondence measures for MT evaluation. In Proceedings of the LREC 2000 Workshop on Evaluation of Machine Translation, Athens, Greece 29th May, 2000, pp. 41-46.
-
Magnus Merkel & Mikael Andersson. Knowledge-lite
extraction of multi-word units with language filters and entropy thresholds.
In Proceedings of RIAO'2000, Collége de France, Paris, France, April
12-14, 2000, Volume1, pp. 737-746.
Sidan senast ändrad 2003-07-15
NLPLABs ingångssida.
|