![]() |
Korpusbaserad maskinöversättning
|
|
Hemsida English pages Projektöversikt Publikationer Medlemmar Länkar Interna sidor |
Korpusbaserad översättningEtt projekt inom VINNOVAs program för språkteknologiMaskinöversättning från eller till svenska är ett område av ökande betydelse. Kunskap på området har byggts upp i olika forskningsprojekt (Lund, Uppsala, SICS, Linköping) och omsatts i forskningsprototyper och i något fall (Lund) också i produktionssystem. De system och metoder som utvecklats har hittills tillämpats på begränsade domäner och där fungerat väl, men varken forskningsvärlden eller företagen på området har ännu tagit fram generella system med den kvalitet som erbjuds för andra europeiska språk som engelska, tyska, spanska, franska och även finska. Därtill kommer att de metoder som använts hittills varit kunskapsintensiva och därmed resurskrävande, varför det finns behov av metoder och system som möjliggör effektiv utveckling/anpassning av ett system för en given översättningsuppgift. Den internationella forskningen på området har samtidigt tagit en ny vändning, som betonar utnyttjandet av befintliga översättningar vid utveckling och anpassning av system. Detta kan ske på olika sätt men särskild tonvikt har lagts på möjligheten att härleda data ur sådana översättningskorpusar på automatisk väg. Detta har bland annat inneburit att flera nya paradigm utvecklats så som statistisk maskinöversättning (Brown et al, 1990; Al-Onaizan, 1999; Och & Ney, 2000), exempelbaserad översättning (Nagao, 1994; Brown 1996; Alshawi et al., 2000 ) och lexikalistisk översättning (Whitelock, 1994), ), men också nya metoder för anpassning av traditionella transfersystem till nya domäner (Sennelart et al., 2001). Ett centralt problem i utnyttjandet av översättningskorpusar (eller parallella korpusar) är härledningen av lexikala data. Sådana data har ett stort värde inte bara för maskinöversättningssystem utan också för framtagning av översättningsstöd och flerspråkiga dataresurser av andra slag som översättningsminnen, termbanker och flerspråkiga lexikon. Lösningen på detta problem har kommit en god bit på väg. Det finns tekniker för länkning av översättningskorpusar på ordnivå med precision och recall som gör dem användbara i många sammanhang (Melamed, 2001). Projektgruppen har i tidigare projekt, bland andra det av NUTEK/HSFR finansierade PLUG-projektet (Sågvall Hein, 1999; 2000), bidragit till utvecklingen på området och också visat på deras användning för maskinöversättning (Ahrenberg, 2000, Jonsson, 2001), i lexikografi (Merkel, 1999; Tiedemann 2001a, 2001b) , terminologi (Tiedemann, 2000) och som stöd vid skrivning på främmande språk (Tiedemann 2001c). Den empiriska nyorienteringen har också visat sig i ett starkt ökat intresse för utvärdering av maskinöversättningssystem, ett problem som är svårare än det i förstone verkar, eftersom det finns många "rätta svar" på ett givet översättningsproblem, och översättningssystem används för många olika syften. Vid konferensen LREC'2000 arrangerades en särskild workshop över detta tema och arbetet fortsätter bl.a. i det internationella ISLE-projektet, gemensamt finansierat med europeiska och amerikanska pengar. Vi vill i detta projekt föra svensk forskning på maskinöversättningsområdet framåt genom vidareutveckling av de system som vi disponerar och en systematisk utprövning av metoder för utvinning av översättningsdata liksom av metoder för utvärdering av maskinöversättningssystem. Specifika mål för projektet är:
Projektet kommer företrädesvis att arbeta med svenska, engelska och tyska texter av specifika genrer. För att nå det sista målet kommer emellertid också blandade korpusar att användas vari översatt skönlitteratur utgör en betydande del.
Förväntade resultat Projektet förväntas ge resultat av följande slag:
Den kunskap som projektet tar fram har ett intresse inte bara för forskare och utvecklare av maskinöversättningssystem, utan också för potentiella beställare inom svenskt näringsliv och förvaltning.
Angreppssätt och problemställningar Allmänt Projektet genomförs i form av ett antal delprojekt som var för sig och tillsammans bidrar till de förväntade resultaten. Dessa beskrivs närmare nedan. Projektet är ett samarbete mellan Institutionen för datavetenskap, Linköpings universitet, och Institutionen för lingvistik, Uppsala universitet. Samarbetet kommer att ha samma form som i PLUG-projektet, d.v.s. att infrastruktur i form av korpusdata, tränings- och testdata, verktyg för utvecklings- och evalueringsarbete delas och att regelbundna projektmöten hålls där vetenskapliga metodfrågor diskuteras och analyseras. | |
KOMA |