Hide menu

Automatisk bedömning av översättningar

(Translation Assessment Tool)

 

Omfattning: 30hp eller 15hp
Lämplig utbildning: Kognitionsvetare eller datavetare med god programmeringskunskap och intresse för pedagogisk programvara. Genomgången kurs i språkteknologi är en fördel.

Syfte

Syftet med arbetet är att utveckla ett system som automatiskt jämför en översättning med en källtext och kvantifierar graden av överensstämmelse mellan dem utifrån ett antal olika kriterier. Systemet är avsett att användas i språk- eller översättarutbildningar med olika gränssnitt för lärare och studenter. Den pedagogiska utformningen är därför viktig.

En viktig frågeställning i arbetet är att identifiera krav på systemets språkliga resurser för att minimera förekomster av fel, och att föreslå och utvärdera designlösningar som kan kompensera för luckor i de språkliga resurserna.

Bakgrund

I Dr. Ljuba Tarvis avhandling, "Comparative Translation Assessment: Quantifying Quality" (Helsinki University Press, 2004) beskrivs en metod, kallad Token Equivalence Method (TEM), att kvantifiera skillnader mellan en översättning och dess källtext. I arbetet tillämpas metoden manuellt på nitton olika engelska översättningar av den ryska romanen Eugene Onegin.

Inom översättningsteknologin har samtidigt tekniker tagits fram, som med hög precision automatiskt kan avgöra vilka ord i en översättning och en källtext som motsvarar varandra. Sådana system brukar kallas ordlänkningssystem, eller, på engelska, word alignment systems.

Mer detaljer

TEM-metoden omfattar ett antal olika mått, varav följande bör undersökas i arbetet:

  • Basic content frame = andelen innehållsord i källtexten som fått en adekvat motsvarighet i översättningen,
  • Optional content frame = frekvens av innehållsord i översättningen som saknar motsvarighet i källtexten,
  • Basic formal frame = frekvens av funktionsord i översättningen,
  • Optional formal frame 1 = andelen innehållsord i källtexten som fått en översättning hörande till samma, eller närmast motsvarande, ordklass,

För att kunna beräkna ovanstående mått behövs ett antal språkliga resurser. De viktigaste är:

  • Ordklasstaggare för källspråk och målspråk,
  • Ordlänkningsprogram omfattande bl.a. ett stort tvåspråkigt lexikon,

Handledaren kan tillhandahålla basresurser för engelska och svenska, men i arbetet ingår att utforma resurserna på ett sådant sätt att de blir väl integrerade i systemet och t.ex. kan anpassas och utvidgas av en lärare.

Referenser

Ljuba Tarvi: Translation-Class Instruction: Dream vs. Reality. (Manuskript. Finns hos handledaren.)

(t.ex.) Jörg Tiedemann: Bitext Alignment. Morgan & Claypool Publishers, 2011.

Kontakt

Lars Ahrenberg

Thesis proposals

Are you interested in doing your Bachelor or Master's thesis work at CILTLab?

Cognitive Science Seminars

Language Technology Seminar


Page responsible: Lars Ahrenberg
Last updated: 2012-05-07