Korpusbaserad maskinöversättning

Summary

Korpusbaserad översättning

Ett projekt inom VINNOVAs program för språkteknologi

Maskinöversättning från eller till svenska är ett område av ökande betydelse. Kunskap på området har byggts upp i olika forskningsprojekt (Lund, Uppsala, SICS, Linköping) och omsatts i forskningsprototyper och i något fall (Lund) också i produktionssystem. De system och metoder som utvecklats har hittills tillämpats på begränsade domäner och där fungerat väl, men varken forskningsvärlden eller företagen på området har ännu tagit fram generella system med den kvalitet som erbjuds för andra europeiska språk som engelska, tyska, spanska, franska och även finska. Därtill kommer att de metoder som använts hittills varit kunskapsintensiva och därmed resurskrävande, varför det finns behov av metoder och system som möjliggör effektiv utveckling/anpassning av ett system för en given översättningsuppgift.

Den internationella forskningen på området har samtidigt tagit en ny vändning, som betonar utnyttjandet av befintliga översättningar vid utveckling och anpassning av system. Detta kan ske på olika sätt men särskild tonvikt har lagts på möjligheten att härleda data ur sådana översättningskorpusar på automatisk väg. Detta har bland annat inneburit att flera nya paradigm utvecklats så som statistisk maskinöversättning (Brown et al, 1990; Al-Onaizan, 1999; Och & Ney, 2000), exempelbaserad översättning (Nagao, 1994; Brown 1996; Alshawi et al., 2000 ) och lexikalistisk översättning (Whitelock, 1994), ), men också nya metoder för anpassning av traditionella transfersystem till nya domäner (Sennelart et al., 2001).

Ett centralt problem i utnyttjandet av översättningskorpusar (eller parallella korpusar) är härledningen av lexikala data. Sådana data har ett stort värde inte bara för maskinöversättningssystem utan också för framtagning av översättningsstöd och flerspråkiga dataresurser av andra slag som översättningsminnen, termbanker och flerspråkiga lexikon.

Lösningen på detta problem har kommit en god bit på väg. Det finns tekniker för länkning av översättningskorpusar på ordnivå med precision och recall som gör dem användbara i många sammanhang (Melamed, 2001). Projektgruppen har i tidigare projekt, bland andra det av NUTEK/HSFR finansierade PLUG-projektet (Sågvall Hein, 1999; 2000), bidragit till utvecklingen på området och också visat på deras användning för maskinöversättning (Ahrenberg, 2000, Jonsson, 2001), i lexikografi (Merkel, 1999; Tiedemann 2001a, 2001b) , terminologi (Tiedemann, 2000) och som stöd vid skrivning på främmande språk (Tiedemann 2001c).

Den empiriska nyorienteringen har också visat sig i ett starkt ökat intresse för utvärdering av maskinöversättningssystem, ett problem som är svårare än det i förstone verkar, eftersom det finns många "rätta svar" på ett givet översättningsproblem, och översättningssystem används för många olika syften. Vid konferensen LREC'2000 arrangerades en särskild workshop över detta tema och arbetet fortsätter bl.a. i det internationella ISLE-projektet, gemensamt finansierat med europeiska och amerikanska pengar.

Vi vill i detta projekt föra svensk forskning på maskinöversättningsområdet framåt genom vidareutveckling av de system som vi disponerar och en systematisk utprövning av metoder för utvinning av översättningsdata liksom av metoder för utvärdering av maskinöversättningssystem.

Specifika mål för projektet är:

att vidareutveckla befintliga tekniker och system för utvinning av lexikala översättningsdata ur översättningskorpusar, dels med avseende på precision och recall, dels med avseende på informationsinnehållet i framtagna data;
att utforska olika tillämpningar där översättningsdata är värdefulla som t.ex. i samband med skrivstöd när man skriver text på främmande språk (Tiedemann, 2001c);
att vidareutveckla i Uppsala och Linköping befintliga regelbaserade resp. lexikalistiska metoder och system för maskinöversättning, speciellt med avseende på anpassning till en given översättningskorpus (som antas vara representativ för en given applikation) och dynamisk översättning med hänsyn till diskurskontext och dokumentuppmärkning;

att utveckla metoder och system för utvärdering av maskinöversättningssystem;
att lägga en grund för utveckling av ett generellt översättningssystem svenska – engelska, genom att ta fram översättningsdata för de vanligaste orden och konstruktionerna i resp. språk .

Projektet kommer företrädesvis att arbeta med svenska, engelska och tyska texter av specifika genrer. För att nå det sista målet kommer emellertid också blandade korpusar att användas vari översatt skönlitteratur utgör en betydande del.

Förväntade resultat

Projektet förväntas ge resultat av följande slag:

kunskap om korpusbaserade översättningstekniker och deras tillämplighet på begränsade domäner av relativt stor komplexitet som manualtexter;
kunskap om vilka möjligheterna är och vilka resurser som krävs för att anpassa system med olika arkitekturer till nya domäner;
implementerade system för minst två domäner av intresse i tillämpningssammanhang;
implementerade system för utvinning av lexikala data ur parallella korpusar med högre prestanda och större informationsinnehåll än dagens;
grundläggande översättningsdata för språkparet svenska-engelska i ett väldefinierat, exporterbart format;
metoder och verktyg för utvärdering av maskinöversättningssystem;

Den kunskap som projektet tar fram har ett intresse inte bara för forskare och utvecklare av maskinöversättningssystem, utan också för potentiella beställare inom svenskt näringsliv och förvaltning.

Angreppssätt och problemställningar

Allmänt

Projektet genomförs i form av ett antal delprojekt som var för sig och tillsammans bidrar till de förväntade resultaten. Dessa beskrivs närmare nedan.

Projektet är ett samarbete mellan Institutionen för datavetenskap, Linköpings universitet, och Institutionen för lingvistik, Uppsala universitet. Samarbetet kommer att ha samma form som i PLUG-projektet, d.v.s. att infrastruktur i form av korpusdata, tränings- och testdata, verktyg för utvecklings- och evalueringsarbete delas och att regelbundna projektmöten hålls där vetenskapliga metodfrågor diskuteras och analyseras.

KOMA
Sidan senast ändrad 29 april 2005.